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La pr^sente invention est relative a une nouvelle souche de corona- 
virus associe an syndrome respiratoire aigu severe (SRAS), issue d'un pretevement 
repertorie sous le n° 031589 et preleve a Hanoi (Vietnam), a des molecules d'acide 
nucleique issues de son genome, aux proteines et peptides codes par lesdites 
5 molecules d'acide nucleique ainsi qu'a leurs applications, notamment en tant que reac- 
tifs de diagnostic et/ou comme vaccin. 

Le coronavirus est un virus a ARN monocatenaire, de polarite posi- 
tive, d'approximativement 30 kilobases qui se r6plique dans le cytoplasme des cellules 
hotes ; Fextremite 5' du genome a une structure en coiffe et Fextremite 3' comporte 
10 une queue polyA. Ce virus est enveloppe et comprend, a sa surface, -des structures 
p£plom6riques- denommees spicules. 

Le genome comprend les cadres ouverts de lecture ou ORF suivants, 
de son extrernite 5' vers son extremity 3* : ORF la et ORF lb correspondant aux 
proteines du complexe de transcription-replication, et ORF-S, ORF-E, ORF-M et 
15 ORF-N correspondant aux proteines structurales S, E, M et N. II comprend egalement 
des ORFs correspondant a des proteines de fonction inconnue codees par : la region 
situee entre FORF-S et FORF-E et chevauchant cette derniere, la region situee entre 
F ORF-M et FORF-N, et la region incluse dans F ORF-N. 

La proteine S est une glycoprotein membranaire (200-220 kDa) qui 
20 se presente sous la forme de spicules ou "Spike" emergeant de la surface de 
Fenveloppe virale. Elle est responsable de Tattachement du virus aux recepteurs de la 
cellule hote et de Finduction de la fusion de Fenveloppe virale avec la membrane 
cetlulaire. 

La petite proteine d'enveloppe (E) egalement denommee sM {small 
25 membrane) qui est une proteine trans-membranaire non glycosylee d'environ 10 kDa, 
est la proteine pr6sente en plus faible quantity dans le virion. Elle joue un r61e moteur 
dans le processus de bourgeonnement des coronavirus qui se produit au niveau du 
compartiment intermediate dans le r6ticulum endoplasmique et Fappareil de Golgi 

La proteine M ou prot&ne de matrice (25-30 kDa) est une glyco- 
30 proteine membranaire plus abondante qui est integree dans la particule virale par une 
interaction M/E, tandis que Fincorporation de S dans les particules est dirig6e par une 
interaction S/M. Elle semble etre importante pour la maturation virale des coronavirus 
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et pour la determination du site au niveau duquel les particules virales sont assem- 
blies. 

La protdine N ou proteine de nucleocapside (45-50 kDa) qui est la 
. plus conservee parmi les proteines structurales des coronavirus, est necessaire pour 
5 encapsider TARN genomique puis pour dinger son incorporation dans le virion. Cette 
proteine est vraisemblablement egalement impliquee dans la replication de TARN. 

Lorsqu'une cellule hote est infectie, le cadre de lecture (ORF) situe 
en 5' du genome viral est traduit en une polyproteine qui est clivee par les proteases 
virales et libere alors plusieurs prot&nes non-structurales telles que TARN- 

10 polymerase ARN dependante (Rep) et FATPase helicase (Hel). Ces deux proteines 
sont impliquees dans la replication du genome viral ainsi que dans la g6n6ration de 
transcrits qui sont utilises dans la synthese des proteines virales. Les mecanismes par 
lesquels ces ARNms sub-genomiques sont produits, ne sont pas completement 
compris ; cependant des faits recents indiquent que les sequences de regulation de la 

15 transcription a l'extremit6 5' de chaque gene represented des signaux qui regulent la 
transcription discontinue des ARNms sub-g6nomiques. 

Les proteines de la membrane virale (proteines S, E et M) sont inse- 
rees dans le compartiment intermediate, alors que TARN repliqu6 (brin +) s'assemble 
avec la proteine N (nucleocapside). Ce complexe prot6ine-ARN s'associe ensuite avec 

20 la prot6ine M incluse dans les membranes du reticulum endoplasmique et les 
particules virales se forment lorsque le complexe de la nucleocapside bourgeonne dans 
le reticulum endoplasmique. Le virus migre ensuite a travers le complexe du Golgi et 
eventuellement sort de la cellule, par exemple par exocytose. Le site de rattachement 
du virus a la cellule h6te se trouve au niveau de la prot6ine S. 

25 Les coronavirus sont responsables de 15 a 30 % des rhumes chez 

THomme et d'infections respiratoires ou digestives chez les animaux, notamment le 
chat (FIPV : Feline infectious peritonitis virus), la volaille (IBV : Avian Infectious 
bronchitis virus), la souris (MHV : Mouse Hepatitis virus), le pore (TGEV : 
Transmissible gastroenterititis virus, PEDV : Porcine Epidemic Diarrhea virus, 

30 PRCoV : Porcine Respiratory Coronavirus, HEV : Hemagglutinating encephalo- 
myelitis Virus) et les bovins (BcoV : Bovine coronavirus). 
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En general, chaque corona virus n'affecte qu'une seule espece ; chez 
les individus immunocompetents, Pinfection induit des anticorps 6ventuellement 
neutralisants et une immunite ceilulaire, capables de detruire les cellules infectees. 

Une epidemie de pneumonie atypique, denomm6e syndrome respi- 

5 ratoire aigu severe (SARS ou Severe acute respiratory syndrome, SRAS en fransais) 
s'est propagee dans differents pays (Vietnam, Hong-Kong, Singapour, Thailande et 
Canada) au cours du premier trimestre 2003, k partir d'un foyer initial apparu en 
Chine dans le dernier trimestre de 2002. La sSverite de cette maladie est telle que son 
taux de mortality est d'environ 3 a 6 %. La determination de P agent causatif de cette 

1 0 maladie a ete entreprise par de nombreux laboratoires, a travers le monde. 

En mars 2003, un nouveau coronavirus (SARS-CoV, SARS virus ou 
virus SRAS, en fran9ais) a ete isole, en association avec des cas de syndrome respi- 
ratoire aigu severe (T.G.KSIAZEK et al., The New England Journal of Medicine, 
2003, 348, 1319-1330 ; C. DROSTEN et aL, The New England Journal of Medicine, 

15 2003, 348, 1967-1976 ; Peiris et al., Lancet, 2003, 361, 1319-). 

Des sequences g6notniques de ce nouveau coronavirus ont ainsi ete 
obtenues, notamment celles de Pisolat Urbani (Genbank n° d'acces AY2741 193 et A. 
MARRA et al., Science, May 1, 2003, 300, 1399-1404) et de Pisolat de Toronto 
(Tor2, Genbank n° d'acces AY 278741 et A. ROTA et al., Science, 2003, 300, 1394- 

20 1399). 

L'organisation du genome est comparable h celle des autres corona- 
virus connus permettant ainsi de confirmer Pappartenance du SARS-CoV a la famille 
des Coronaviridae ; les cadres ouverts de lecture ORFla et lb et les cadres ou verts de 
lecture correspondant aux proteines S, E, M, et N, ainsi qu'a des proteines codees par : 

25 la r6gion situee entre l'ORF-S et l 5 ORF-E (ORF3), la region situee entre l'ORF-S et 
rORF-E et chevauchant TORF-E (ORF4), la region situee entre PORF-M et 1'ORF-N 
(ORF7 a ORF11) et la region correspondant a TORF-N (ORF13 et ORF14), ont 
notamment ete identifies. 

Sept differences ont ete mises en evidence entre les sequences des 

30 isolats Tor2 et Urbani ; 3 correspondent h des mutations silencieuses (c/t en position 
16622 et a/g en position 19064 de PORFlb, t/c en position 24872 de l'ORF-S) et 4 
modifient la sequence en acides amines de respectivement : les proteines codees par 
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TORFla (c/t en position 7919 correspondant a la mutation A/V), la proteine S (g/t en 
position 23220 correspondant a la mutation A/S), la proteine cod6e par PORF3 (a/g en 
position 25298 correspondant a la mutation R/G) et de la proteine M (t/c en position 
26857 correspondant a la mutation S/P). 
5 En outre, Panalyse phylogenetique montre que le SARS-CoV est 

eloigne des autres coronavirus et qu'il est apparu, ni par mutation de coronavirus 
respiratoires humains, ni par recombinaison entre des coronavirus connus (pour une 
revue, voir Holmes, J.C.I., 2003, 111, 1605-1609). 

La mise en Evidence et la prise en compte de nouveaux variants sont 

10 importantes pour la mise au point de rSactifs de detection et de diagnostic du SRAS 
suffisamment sensibles et sp6cifiques ainsi qu'a des compositions immunog&nes aptes 
k proteger des populations contre des epidernies de SRAS. 

Les Inventeurs ont maintenant mis en evidence une autre souche de 
coronavirus associe au SRAS, qui se distingue des isolats Tor2 et Urbani. 

15 La presente invention a done pour objet, une souche isolee ou puri- 

fiee de coronavirus humain associe au syndrome respiratoire aigu severe, caracterisee 
en ce que son g&iome presente sous la forme d' ADN complementaire un codon serine 
en position 23220-23222 du gene de la proteine S ou un codon glycine en position 
25298-25300 du gene de TORF3, et un codon alanine en position 7918-7920 de 

20 TORFla ou un codon serine en position 26857-26859 du gene de la proteine M, 
lesdites positions etant indiquees en reference a la sequence Genbank AY2741 19.3. 

Selon un mode de realisation avantageux de ladite souche, 
F equivalent ADN de son g6nome presente une sequence correspondant a la sequence 
SEQ ID NO : 1 ; cette souche de coronavirus est issue du pr61evement de lavage 

25 bronchoalv6olaire d'un patient atteint de SRAS, repertory sous le n° 031589 et 
effectue a Phopital fran^is de Hanoi (Vietnam). 

Conform&nent k Tinvention, ladite sequence SEQ ID NO :1 est 
celle de Tacide desoxyribonucl6ique correspondant a la molecule d'acide 
ribonucl6ique du genome de la souche isolee de coronavirus telle que definie ci- 

30 dessus. 

La sequence SEQ ID NO : 1 se distingue de la sequence Genbank 
AY274119.3 (isolat Tor2) en ce qu'ellepossede les mutations suivantes : 



- g/t en position 23220 ; le codon alanine (get) en position 577 de la 
sequence en acides amines de la proteine S de Tor2 est remplac6 par un codon serine 
(tct), 

- a/g en position 25298 ; le codon arginine (aga) en position 1 1 de la 
5 sequence en acide amines de la proteine codee par TORF3 de Tor 2 est remplace par 

un codon glycine (gga). 

En outre, la sequence SEQ ID NO : 1 se distingue de la sequence 
Genbank AY278741 (isolat Urbani) en ce qu'elle possede les mutations suivantes : 

- t/c en position 7919 ; le codon valine (gtt) en position 2552 de la 
10 s6quence en acides amines de la proteine codee par l'ORFla est remplace par un 

codon alanine (get), 

- t/c en position 16622 : cette mutation ne modifie pas la sequence 
en acides amines des prolines codees par l'ORFlb (mutation silencieuse), 

- g/a en position 19064 : cette mutation ne modifie pas la sequence 
1 5 en acides amines des proteines codees par TORFlb (mutation silencieuse), 

- c/t en position 24872 : cette mutation ne modifie pas la sequence 

en acides amines de la proteine S, et 

- c/t en position 26857 : le codon proline (ccc) en position 154 de la 
sequence en acides amines de la proteine M est remplace par un codon serine (tec). 

20 En l'absence de mention particuliere, les positions des sequences 

nucleotidiques et peptidiques sont indiquees en reference a la sequence Genbank 
AY274119.3. 

La presente invention a egalement pour objet un polynucleotide isol6 
ou purifi6, caracterise en ce que sa sequence est celle du genome de la souche isolee 
25 de coronavirus telle que definie ci-dessus. 

Selon un mode de realisation avantageux dudit polynucleotide il 

presente la sequence SEQ ID NO : 1. 

La presente invention a egalement pour objet un polynucleotide isole 
ou purifi6, caractdrise en ce que sa sequence hybride dans des conditions de forte 
30 stringence avec la sequence du polynucleotide tel que ddfini ci-dessus. 

Les termes « isole ou purine » signifient modifie « par la main de 
l'homme» a partir de l'etat naturel ; autrement dit si un objet existe dans la nature, il 
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est dit isole ou purifie s'il a ete modifte on extrait de son environnement naturel ou les 
deux. Par exemple, un polynucleotide ou une prot&ne/un peptide naturellement 
present dans un organisme vivant n'est ni isole, ni purifie ; en revanche le meme poly- 
nucleotide ou proteine /peptide separe des molecules coexistantes dans son environ- 
5 nement naturel, obtenu par clonage, amplification et/ou synthese chimique est isole au 
sens de la presente invention. De plus, un polynucleotide ou une prot6ine/peptide qui 
est introduit dans un organisme par transformation, manipulation genetique ou par 
toute autre methode, est « isole » meme s'il est present dans ledit organisme. Le terme 
purifi6 tel qu'utilise dans la presente invention, signifie que les proteines /peptides 

10 selon 1'invention sont essentiellement libres dissociation avec les autres proteines ou 
polypeptides, comme Test par exemple le produit purifie de la culture de cellules 
hotes recombinantes ou le produit purifite a partir d'une source non-recombinante. 

Au sens de la presente invention, on entend par conditions d'hybri- 
dation de forte stringence, des conditions de temperature et de force ionique choisies 

15 de telle maniere qu'elles permettent le maintien de Thybridation spScifique et selective 
entre polynucleotides compl&nentaires. 

A titre d f illustration, des conditions de forte stringence aux fins de 
definir les polynucleotides ci-dessus, sont avantageusement les suivantes : Phybrida- 
tion ADN-ADN ou ADN-ARN est realisee en deux etapes : (1) prfihybridation a 42°C 

20 pendant 3 heures en tampon phosphate (20 mM pH 7,5) contenant 5 x SSC (1 x SSC 
correspond a une solution 0,15 M NaCl + 0, 015 M citrate de sodium), 50 % de 
formamide, 7 % de sodium dodecyl sulfate (SDS), 10 x Denhardt's, 5 % de dextran 
sulfate et 1 % d r ADN de sperme de saumon ; (2) hybridation pendant 20 heures a 
42°C suivie de 2 lavages de 20 minutes a 20°C en 2 x SSC + 2 % SDS, 1 lavage de 20 

25 minutes a 20°C en 0,1 x SSC + 0,1 % SDS. Le dernier lavage est pratique en 0,1 x 
SSC + 0,1 % SDS pendant 30 minutes a 60°C. 

La pr6sente invention a egalement pour objet un fragment represent 
tatif du polynucleotide tel que defini ci-dessus, caracterise en ce qu'il est susceptible 
d'etre obtenu, soit par l'utilisation d'enzymes de restriction dont les sites de 
30 reconnaissance et de coupure sont presents dans ledit polynucleotide tel que defini ci- 
dessus, soit par amplification a l'aide d'amorces oligonucleotidiques sp6cifiques dudit 
polynucleotide tel que defini ci-dessus, soit par transcription in vitro, soit par synthese 
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chimique. 

Selon un mode de realisation avantageux dudit fragment, il est selec- 
tion^ dans le groupe constitue par : l'ADNc correspondant a au moins un cadre 
ouvert de lecture (ORF) choisi parmi : ORFla, ORFlb, ORF-S, ORF-E, ORF-M, 
5 ORF-N, ORF3, ORF4, ORF7 a ORF11, ORF13 et ORF14, et l'ADNc correspondant 
aux extremites 5' ou 3' non-codantes dudit polynucleotide. 

Selon une disposition avantageuse de ce mode de realisation, ledit 
fragment presente une sequence selectionnee dans le groupe constitue par : 

- les sequences SEQ ID NO : 2 et 4 representant l'ADNc corres- 

1 0 pondant a l'ORF-S qui code pour la proteine S, 

- les sequences SEQ ID NO : 13 et 15 representant l'ADNc corres- 
pondant a l'ORF-E qui code pour la proteine E, 

- les sequences sequence SEQ ID NO : 16 et 18 representant 
l'ADNc correspondant a l'ORF-M qui code pour la proteine M, 

15 _ les sequences SEQ ID NO : 36 et 38 representant l'ADNc corres- 

pondant a l'ORF-N qui code pour la proteine N, 

- les sequences representant les ADNc correspondant respective- 
ment : aux ORFla et ORFlb (ORFlab, SEQ ID NO : 31), aux ORF3 et ORF4 (SEQ 
ID NO : 7, 8), aux ORF 7 a 1 1 (SEQ ED NO : 1 9, 20), a FORF13 (SEQ ID NO : 32) et 

20 a FORF14 (SEQ ID NO : 34), et 

- les sequences representant les ADNc correspondant respectivement 
aux extr6mites 5'(SEQ ID NO : 39 et 72) et 3' non-codantes (SEQ ID NO : 40, 73) 

dudit polynucleotide. 

La presente invention a egalement pour objet un fragment de 
25 l'ADNc codant pour la proteine S, tel que defini ci-dessus, caracterise en ce qu'il 
pr6sente une sequence selectionnee dans le groupe constitu6 par les sequences SEQ ID 

NO : 5 et 6 (fragments Sa et Sb). 

La presente invention a egalement pour objet un fragment de 
l'ADNc correspondant aux ORFla et ORFlb tel que defini ci-dessus, caracteris6 en ce 
30 qu'il presente une sequence selectionn6e dans le groupe constitue par les sequences 
SEQ ID NO : 41 a 54 (fragments L0 a L12). 
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La pr6sentc invention a egalement pour objet un fragment du poly- 
nucleotide tel que defini ci dessus, caract6rise en ce qu'il pr6sentc au moins 1 5 bases 
ou paires de bases consecutives de la sequence du genome de ladite souche incluant au 
moins une de celles situ6es en position 7979, 16622, 19064, 23220, 24872, 25298 et 

5 26857. De preference, il s'agit d'un fragment de 20 a 2500 bases ou paires de bases, 
de maniere preferee de 20 a 400. 

Selon un mode de realisation avantageux dudit fragment, il inclut au 
moins un couple de bases ou de paires de bases correspondent aux positions 
suivantes : 7919 et 23220, 7919 et 25298, 16622 et 23220, 19064 et 23220, 16622 et 

10 25298, 19064 et 25298, 23220 et 24872, 23220 et 26857, 24872 et 25298, 25298 et 
26857. 

La pr£sente invention a egalement pour objet des amorces d'au 
moins 1 8 bases aptes a amplifier un fragment du genome d'un coronavirus associe au 
SRAS ou de l'equivalent ADN de celui-ci. 

15 Selon un mode de realisation desdites amorces, elles sont s61ection- 

nees dans le groupe constitue par : 

- la paire d'amorces n° 1 correspondant respectivement aux positions 
28507 a 28522 (amorce sens, SEQ ID NO : 60) et 28774 a 28759 (amorce anti-sens, 
SEQ ID NO : 61) de la sequence du polynucleotide tel que defini ci-dessus, et 

20 - la paire d'amorces n° 2 correspondant respectivement aux positions 

28375 a 28390 (amorce sens, SEQ ID NO : 62) et 28702 a 28687 (amorce anti-sens, 
SEQ ID NO : 63) de la sequence du polynucleotide tel que defini ci-dessus. 

La presente invention a egalement pour objet une sonde apte a 
detecter la presence du genome d'un coronavirus associe au SRAS ou d'un fragment 

25 de celui-ci, caracterisee en ce qu'elle est s61ectionn6e dans le groupe constitue par : les 
fragments tels que d6fmis ci-dessus. et les fragments., correspondant aux positions 
suivantes de la sequence du polynucleotide tel que defini ci-dessus : 28561 a 28586, 
28588 a 28608, 28541 a 28563 et 28565 a 28589 (SEQ ID NO : 64 a 67). 

Les sondes et amorces selon Tlnvention peuvent etre marquees 

30 directement ou indirectement par un compose radioactif ou non radioactif par des 
m6thodes bien connues de l'Homme du Metier, afin d'obtenir un signal detectable 
et/ou quantifiable. Parmi les isotopes radioactifs utilises, on peut citer le 32 P, le 33 P, le 
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35 S, le 3 H ou 1 ,125 I. Les entites non radioactives sont s61ectionn6es parmi les ligands 
tels que la biotine, I'avidine, la streptavidine, la digoxygenine, les haptenes, les colo- 
rants, les agents luminescents tels que les agents radioluminescents, chemolumines- 
cents, bioluminescents, fluorescents, phosphorescents. 
5 L'invention englobe les sondes et les amorces marquees deriv6es des 

sequences prec6dentes. 

De telles sondes et amorces sont utiles pour le diagnostic de 
Tinfection par un coronavirus assocte au SRAS. 

La pr&ente invention a egalernent pour objet une methode de d6teo 
10 tion d'un coronavirus associ£ au SRAS, a partir d'un echantillon biologique, laquelle 
methode est caracterisee en ce qu'elle comprend au moins : 

(a) P extraction d'acides nucleiques presents dans ledit Echantillon 

biologique, 

(b) P amplification d'un fragment de PORF-N par RT-PCR a Paide 
15 d'une paire d'amorces telle que d6finie ci-dessus, et 

(c) la detection par tout moyen approprie des produits 
d'amplifications obtenus en (b). 

Les produits d'amplifications (amplicons) en (b) sont de 268 pb pour 
la paire d'amorces n° 1 et de 328 pb pour la paire d'amorces n°2. 

20 Selon un mode de mise en ceuvre avantageux dudit procede, Petape 

(b) de detection est realisee a Paide d'au moins une sonde correspondant aux positions 
28561 a 28586, 28588 a 28608, 28541 a 28563 et 28565 a 28589 de la sequence du 
polynucleotide tel que defini ci-dessus. 

De preference, le genome du coronavirus associ6 au SRAS est 

25 d&ecte et eventuellement quantify par PCIl en temps reel, a Paide de la paire 
d'amorces n°2 et des sondes correspondant aux positions 28541 a 28563 et 28565 a 
28589 marquees avec des composes diff&rents, notamment des agents fluorescents 
differents. 

La RT-PCR en temps reel qui met en oeuvre cette paire d'amorces et 
30 cette sonde est trfes sensible puisqu'elle permet de d6tecter 1 0 2 copies d ARN et jusqu'a 
1 0 copies d ARN, elle est en outre fiable et reproductible. 
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L' invention englobe les polydesoxyribonucleotides et les polyribo- 
nucleotides simple-brin, double-brin et tripe-brin correspondant a la sequence du 
genome de la souche isol6e de coronavirus et de ses fragments tels que definis ci- 
dessus, airisi qu'a leurs sequences complementaires, sens ou anti-sens, notamment les 
5 ARN et les ADNc correspondant a la sequence du genome et de ses fragments tels que 
definis ci-dessus. 

La presente invention englobe egalement les fragments 
d'amplification obtenus a l'aide d'amorces sp6cifiques du genome de la souche puri- 
fiee ou isolee tel que defini ci-dessus, notamment a l'aide d'amorces et de paires 

10 d'amorces telles que d6finies ci-dessus, les fragments de restriction constitu^s par ou 
comprenant la sequence des fragments tels que d6finis ci-dessus, les fragments obte- 
nus par transcription in vitro a partir d'un vecteur contenant la sequence SEQ ID NO : 
1 ou un fragment tel que defini ci-dessus, ainsi que des fragments obtenus par 
synthese chimique. Des exemples de fragments de restriction sont deduits de la carte 

15 de restriction de la sequence SEQ ID NO : 1 illustree par la figure 13. Conform6ment 
a Tinvention lesdits fragments sont, soit sous forme de fragments isoles, soit sous 
forme de melanges de fragments. 1/ invention englobe egalement les fragments modi- 
fies, par rapport aux precedents, par enlevement, ou addition de nucleotides dans une 
proportion d' environ 15 %, par rapport a la longueur des fragments ci-dessus et/ou 

20 modifies au niveau de la nature des nucleotides, des lors que les fragments nucleo- 
tidiques modifies conservent une capacite d'hybridation avec les sequences d'ARN 
genomiques ou antigenomiques de Fisolat tel que defini ci-dessus. 

Les molecules d'acide nucleique selon Tinvention sont obtenues par 
les methodes classiques, connues en elles-mSmes, en suivant les protocoles standards 

25 tels que ceux decrits dans Current Protocols in Molecular Biology (Frederick M. 
AUSUBEL,2Q00, Wiley and son Inc, Library of Congress, USA). Par exemple, elles 
peuvent etre obtenues par amplification d'une sequence nucleique par PCR ou RT- 
PCR ou bien par synthese chimique totale ou partielle. 

La presente invention a egalement pour objet une puce ou filtre a 

30 ADN ou a ARN, characterise en ce qu'il comprend au moins un polynucleotide ou Tun 
de ses fragments tels que definis ci-dessus. 

Les puces ou filtres h ADN ou a ARN selon Tinvention sont 
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pr6par6s par les methodes classiques, connues en elles-m&nes, comme par exemple 
greffage chimique ou electrochimique ^oligonucleotides sur support de verre ou de 
nylon. 

La presente invention a egalement pour objet un vecteur de clonage 
5 et/ou d'expression recombinant, notamment un plasmide ou un phage comprenant un 
fragment d'acide nucl6ique tel que defini ci-dessus. De preference, ledit vecteur 
recombinant est un vecteur d'expression dans lequel ledit fragment d f acide nucl&que 
est place sous le contrdle d'elements r6gulateurs de la transcription et de la traduction 
appropries. En outre, ledit vecteur peut comprendre des sequences (etiquettes ou tag) 
10 fusionnfes en phase avec l ! extremit6 5' et/ou 3' dudit insert, utiles pour l ! immobilisa- 
tion, et/ou la detection et/ou la purification de la prot6ine exprimee a partir dudit 
vecteur. 

Ces vecteurs sont construits et introduits dans des cellules hotes par 
les methodes classiques d'ADN recombinant et de genie g6netique, qui sont connues 

15 en elles-mdmes. De nombreux vecteurs dans lesquels on peut inserer une molecule 
d'acide nucleique d'int&et afin de Tintroduire et de la maintenir dans une cellule h6te, 
sont connus en eux-memes ; le choix d'un vecteur approprie depend de Putilisation 
envisag6e pour ce vecteur (par exemple replication de la sequence d'int6r£t, expres- 
sion de cette sequence, maintien de la sequence sous forme extrachromosomique ou 

20 bien integration dans le materiel chromosomique de l'hote), ainsi que de la nature de la 
cellule hote. 

Conformement a Finvention, ledit plasmide est notamment selec- 
tionne parmi les plasmides suivants : 

- le plasmide, denomme SARS-S, compris dans la souche bacte- 
25 rienne d6pos6e sous le n° 1-3059, le 20 juin 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la sequence d'ADNc codant pour la proteine S de la souche de SARS-CoV 
issue du prelevement repertorie sous le n° 031589, laquelle sequence correspondant 
aux nucleotides des positions 21406 a 25348 (SEQ ID NO : 4), en reference a la 
30 sequence Genbank AY274 1 1 9.3, 

- le plasmide, denommS SARS-S 1, compris dans la souche bacte- 
rienne depos6e sous le n° 1-3020, le 12 mai 2003, aupres de la Collection Nationale de 
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Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient un fragment 5' de la sequence d'ADNc codant pour la proteine S de la souche 
de SARS-CoV issue du prelevement repertorie sous le n° 031589, telle que definie ci- 
dessus, lequel fragment correspondant aux nucleotides des positions 21406 a 23454 

5 (SEQ ID NO :5), en reference a la sequence Genbank AY2741 19.3 Tor2, 

- le plasmide, denomme SARS-S2, compris dans la souche bacte- 
rienne deposee sous le n° 1-3019, le 12 mai 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient un fragment 3 Me la sequence d'ADNc codant pour la proteine S de la souche 

10 de SARS-CoV issue du pretevement repertoriS sous le n° 031589, telle que dSfinie ci- 
dessus, lequel fragment correspondant aux nucleotides des positions 23322 a 25348 
(SEQ ID NO :6), en reference a la sequence Genbank n° d'accds AY2741 19.3, 

- le plasmide, denomm6 SARS-SE, compris dans la souche bacte- 
rienne deposee sous le n° 1-3126, le, 13 novembre 2003, aupres de la Collection 

15 Nationale de Cultures de Microorganismes, 25 rte du Docteur Roux, 75724 Paris ^ 
Cedex 15; il contient l'ADNc correspondant a la region situee entre l'ORF-S et > 
l'ORF-E et chevauchant l'ORF-E de la souche de SARS-CoV issue du prelevement ^ 
repertorie sous le n° 031589, telle que definie ci-dessus, laquelle region correspondant ,*« 
aux nucleotides des positions 25110 a 26244 (SEQ ID NO :8), en reference a la 

20 sequence Genbank n° d'acces AY2741 193, 

- le plasmide, d6nomme SARS-E, compris dans la souche bacte- 
rienne depos6e sous le n° 1-3046, le 28 mai 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la sequence d'ADNc codant pour la proteine E de la souche de SARS-CoV 

25 issue du pr61evement rSpertorte sous le n° 03 1589, telle que definie ci-dessus, laquelle 
sequence correspondant aux nucleotides des positions 26082 a 26413 (SEQ ID 
NO :15), en reference a la sequence Genbank n° d'acces AY2741 19.3, 

- le plasmide, denomme SARS-M ; compris dans la souche bacte- 
rienne deposee sous le n° 1-3047, le 28 mai 2003, aupres de la Collection Nationale de 

30 Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient la s6quence d'ADNc codant pour la proteine M de la souche de SARS-CoV 
issue du prelevement r<5pertorie sous le n° 031589, telle que definie ci-dessus; 
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laquelle sequence correspondant aux nucleotides des positions 26330 a 27098 (SEQ 
ID NO : 1 8), en reference a la sequence Genbank n° d'acces AY2741 1 9.3, 

- le plasmide denomrne SARS-MN, compris dans la souche bacte- 
rienne deposee sous le n° 1-3125, le 13 novembre 2003, aupres de la Collection 

5 Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15 ; il contient la sequence d'ADNc correspondant a la region situee entre 
TORF-M et l'ORF-N de la souche de SARS-CoV issue du prelSvement repertorie 
sous le n° 031589 et prelevee a Hanoi, telle que definie ci-dessus, laquelle sequence 
correspondant aux nucleotides des positions 26977 a 28218 (SEQ ID NO :20), en refe- 

1 0 rence a la sequence Genbank n° d'acces AY2741 1 9.3, 

- le plasmide denomrne SARS-N, compris dans la souche bacte- 
rienne deposee sous le n° 1-3048, le 5 juin 2003, aupres de la Collection Nationale de 
Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il 
contient l'ADNc codant pour la proteine N de la souche de SARS-CoV issue du 

15 prelevement repertorie sous le n° 031589, telle que definie ci-dessus, laquelle 
sequence correspondant aux nucleotides des positions 28054 a 29430 (SEQ ID 
NO :38), en reference a la sequence Genbank n° d'acces AY2741 19.3, 

- le plasmide denomrne SARS-5'NC, compris dans la souche bacte- 
rienne depos6e sous le n° I- 3124, le 7 novembre 2003, aupres de la Collection 

20 Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15 ; il contient l'ADNc correspondant a l'extremite 5'non codante du genome 
de la souche de SARS-CoV issue du prelevement repertorie sous le n° 031589, telle 
que d6finie ci-dessus, laquelle sequence correspondant aux nucleotides des positions 1 
a 204 (SEQ ID NO :39), en reference a la sequence Genbank n° d'acces AY2741 19.3, 

25 - le plasmide denomrne SARS-3'NC, compris dans la souche bacte- 

rienne deposee sous le n° 1-3123 le 7 novembre 2003, aupres de la Collection 
Nationale de Cultures de Microorganismes, 25 rue du Docteur Roux, 75724 Paris 
Cedex 15. ; il contient la sequence d'ADNc correspondant a l'extremite 3'non codante 
du genome de la souche de SARS-CoV issue du prelevement repertorie sous le n° 

30 031589, telle que definie ci-dessus, laquelle sequence correspondant a celle situee 
entre le nucleotide en position 28933 a 29727 (SEQ ID NO :40), en reference a la 
sequence Genbank n° d'acces AY2741 1 9.3, se terminc par une serie de nucleotides a., 
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- le plasmide d'expression denomme pIV2.3N, contenant un 
fragment d' ADNc codant pour une fusion C-terminale de la proteine N (SEQ ID NO : 
37) avec une etiquette polyhistidine, 

- le plasmide d'expression d6nomm<§ pIV2.3Sc, contenant un 
5 fragment d'ADNc codant pour une fusion C-terminale du fragment correspondant aux 

positions 475 a 1 193 de la sequence en acides amines de la proteine S (SEQ ID NO : 
3) avec une etiquette polyhistidine, 

- le plasmide d'expression pIV2.3Sjr., contenant un fragment 
d'ADNc codant pour une fusion C-terminale du fragment correspondant aux positions 

10 14 a 1 193 de la sequence en acides amines de la proteine S (SEQ ID NO : 3) avec une 
Etiquette polyhistidine, 

- le plasmide d'expression d&iomme pIV2.4N, contenant uh 
fragment d'ADNc codant pour une fusion N-terminale de la proteine N (SEQ ID NO : 
3) avec une etiquette polyhistidine, 

15 - le plasmide d'expression denomme pIV2.4Sc ou pIV2.4Si, 

"X 

contenant un insert codant pour une fusion N-terminale du fragment correspondant - 
aux positions 475 a 1 193 de la sequence en acides amines de la proteine S (SEQ ED ... 
NO : 3) avec une etiquette polyhistidine, et 

- le plasmide d'expression denomme pIV2.4Sl contenant un 
20 fragment d'ADNc codant pour une fusion N-terminale du fragment correspondant aux 

positions 14 a 1 193 de la sequence en acides amin6s de la prot&ne S (SEQ ID NO : 3) 
avec une 6tiquette polyhistidine. 

Selon une disposition avantageuse du plasmide d'expression tel que 
d6fini ci-dessus, il est compris dans une souche bacterienne qui a ete depos6e sous le 
25 n° I- 3117, le 23 octobre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 1 5. 

Selon une autre disposition avantageuse du plasmide d'expression 
tel que defini ci-dessus, il est compris dans une souche bacterienne qui a 6t6 deposee 
sous le n° I- 3118, le 23 octobre 2003, aupres de la Collection Nationale de Cultures 
30 de Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 1 5. 

La presente invention a egalement pour objet une banque d'ADNc 
caracterisee en ce qu'elle comprend des fragments tels que d£finis ci-dessus, en parti- 
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culier des fragments d'amplification ou des fragments de restriction, clones dans un 
vecteur recombinant, notamment un vecteur d'expression (banque d'expression). 

La presente invention a egalement pour objet des cellules, notam- 
ment des cellules procaryotes, modifiees par un vecteur recombinant tel que defini ci- 
5 dessus. 

Les vecteurs recombinants tels que definis ci-dessus et les cellules 
transformers par lesdits vecteurs depression sont avantageusement utilises pour la 
production des proteines et des peptides correspondants. Les banques d'expression 
derivees desdits vecteurs, ainsi que les cellules transform6es par lesdites banques 

10 d'expression sont avantageusement utilisees pour identifier les epitopes immunogenes 
(epitopes B et T) des proteines du coronavirus associe au SRAS. 

La presente invention a egalement pour objet les proteines et les 
peptides purifiees ou isolees, caracterises en ce qu'ils sont codes par le polynucleotide 
ou Tun de ses fragments tels que definis ci-dessus. 

15 Selon un mode de realisation avantageux de Tinvention, ladite 

proteine est selectionnee dans le groupe constitue par : 

- la proteine S de sequence SEQ ID NO :3 

- la proteine E de sequence SEQ ID NO :14 

- la proteine M de sequence SEQ ID NO :17 
20 -la proteine N de sequence SEQ ID NO : 37 

- les prolines codees par les ORFs : ORFla, ORFlb, ORF3, ORF4 
et ORF7 a ORF11, ORF13 et ORF14 de sequence respectivement, SEQ ID NO :74, 
75, 10, 12, 22, 24, 26, 28, 30, 33 et 35. 

Selon un mode de realisation avantageux de Tinvention, ledit 
25 peptide est selectionne dans le groupe constitue par : 

a) les peptides correspondant aux positions 14 a 1 193 et 475 a 1 193 
de la sequence en acides amines de la prot6ine S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
et 100 a 221 de la sequence en acides amines de la proteine M ; ces peptides corres- 

30 pondent respectivement a Tectodomaine et a Tendodomaine de la proteine M, et 

c) les peptides correspondant aux positions 1 & 12 (SEQ ID NO : 70) 
et 53 a 76 (SEQ ID NO : 71) de la sequence en acides amin6s de la proteine E ; ces 
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peptides correspondent respectivement k V ectodomaine et a l'extremit6 C-terminale de 
la prot&ne E, et 

d) les peptides de 5 a 50 acides amines consecutifs, de preference de 
10 k 30 acides amines, inclus ou chevauchant partiellement ou totalement la sequence 
des peptides tels que definis en a), b) ou c). 

La presente invention a egalement pour objet un peptide caracterise 
en ce qu'il pr6sente une sequence de 7 a 50 acides amines incluant un residu d'acide 
amine selection^ dans le groupe constitue par : 

- F alanine situee en position 2552 de la sequence en acides amines 
de la proteine codee par TORFla. 

- la serine situee en position 577 de la sequence en acides amines de 
la proline S de la souche de SARS-CoV telle que definie ci-dessus, 

- la glycine en position 11 de la sequence en acides amines de la 
proteine codee par F ORF3 de la souche de SARS-CoV telle que d&finie ci-dessus, 

- la serine en position 154 de la sequence en acides amines de la 
proteine M de la souche de SARS-CoV telle que definie ci-dessus. 

La presente invention a egalement pour objet un anticorps ou un 
fragment d'anticorps polyclonal ou monoclonal, susceptible d'etre obtenu par 
immunisation d'un animal avec un vecteur recombinant tel que d£fini ci-dessus, une 
banque d'ADNc telle que definie ci-dessus ou bien une proteine ou un peptide tels que 
definis ci-dessus, caracterise en ce qu'il se lie avec Tune au moins des proteines 
codees par le SARS-CoV telles que definies ci-dessus. 

L'invention englobe les anticorps polyclonaux, les anticorps mono- 
clonaux, les anticorps chimeriques tels que les anticorps humanises, ainsi que leurs 
fragments (Fab, Fv, scFv). 

Au sens de la presente invention, on entend par anticorps 
chimerique, relativement a un anticorps d r une espece animale particuliere ou d'une 
classe particuliere d f anticorps, un anticorps comprenant tout ou partie d r une chaJne 
lourde et/ou d'une chaine legere d ! un anticorps d'une autre espece animale ou d ! une 
autre classe d'anticorps. 

Au sens de la presente invention, on entend par anticorps humanise 
une immmunoglobuline humaine dans laquelle les residus des CDRs 
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(Complementary-Determining Regions) qui forment le site de liaison a Tantigene sont 
remplaces par ceux (fun anticorps monoclonal non-humain possedant la specificite, 
Taffinite ou l'activite recherchees. Par comparaison avec les anticorps non-humains, 
les anticorps humanises sont moins immunogenes et possedent une demi-vie prolon- 
5 gee chez THomme car ils ne possedent qu'une faible proportion de sequences non- 
humaines 6tant donne que la quasi-totalit6 des residus des regions FR (Framework) et 
de la region constante (Fc) de ces anticorps sont ceux d'une sequence consensus 
d'immunoglobulines humaines. 

La presente invention a egalement pour objet une puce a proteine, 

10 caracterisee en ce qu'elle comprend une proteine, un peptide ou bien un anticorps tels 
que definis ci-dessus. 

Les puces a proteine selon Tinvention sont preparees par les 
m6thodes classiques, connues en elles-memes. Parmi les supports appropries sur 
lesquels peuvent etre immobilises des proteines, on peut citer ceux en matiere 

1 5 plastique ou en verre, notamment sous la forme de microplaques. 

La presente invention a egalement pour objet des r6actifs derives de 
la souche isolee de coronavirus associe au SRAS, issue du prelevement rSpertorie sous 
le n° 031589, utiles pour l'6tude et le diagnostic de Tinfection provoquee par un 
coronavirus associe au SRAS, lesquels reactifs sont selectionnes dans le groupe cons- 

20 tituepar : 

(a) une paire d'amorces, une sonde ou une puce a ADN telles que 
definies ci-dessus, 

(b) un vecteur recombinant ou une cellule modifiee tels que d6finis 

ci-dessus, 

25 (c) une souche isolee de coronavirus ou un polynucleotide tels que 

d6finis ci-dessus, 

(d) une proteine ou un peptide tel que d6fini ci-dessus, 

(e) un anticorps ou fragment d'anticorps tels que definis ci-dessus, et 

(f) une puce a proteine telle que definie ci-dessus. 

30 Ces differents reactifs sont prepares et utilises selon les techniques 

classiques de biologie mol^culaire et d'immunologie, en suivant les protocoles 
standards tels que ceux decrits dans Current Protocols in Molecular Biology 
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(Frederick M. AUSUBEL, 2000, Wiley and Son Inc., Library of Congress, USA), 
dans Current Protocols in Immunology (John E. Cologan, 2000, Wiley and Son Inc. 
Library of Congress, USA) et dans Antibodies : A Laboratory Manual (E. Howell and 
D Lane, Cold Spring Harbor Laboratory, 1988). 

5 Les fragments d'acide nucl&que selon l'invention sont prepares et 

utilises selon les techniques classiques telles que definies ci-dessus. Les peptides et les 
prot&nes selon l'invention sont prepares par les techniques d'ADN recombinant, 
connues de THomme du metier, notamment a Paide des vecteurs recombinants tels 
que d6finis ci-dessus. Alternativement, les peptides selon l'invention peuvent etre 

10 prepares par les techniques classiques de synthese en phase solide ou liquide, connues 
de lHomme du metier. 

Les anticorps polyclonaux sont prepares par immunisation d ! un 
animal approprte avec une proteine ou un peptide tels que definis ci-dessus, eventuel- 
lement couple a la KLH ou a Falbumine et/ou associe a un adjuvant approprie tel que 

15 l'adjuvant de Freund (complet ou incomplet) ou Thydroxyde d T alumine ; apres obten- 
tion d'un titre en anticorps satisfaisant, les anticorps sont recoltes par prelevement du 
serum des animaux immunises et enrichis en IgG par precipitation, selon les 
techniques classiques, puis les IgG specifiques des proteines du SARS-CoV sont 
eventuellement purifi6es par chromatographie d T affinit6 sur une colonne appropriee 

20 sur laquelle sont fixes ledit peptide ou ladite proteine, tels que definis ci-dessus, de 
fa?on a obtenir une pr6paration d ! IgG monosp6cifiques. 

Les anticorps monoclonaux sont produits a partir d'hybridomes 
obtenus par fusion de lymphocytes B d'un animal immunise par une proline ou un 
peptide tels que definis ci-dessus avec des myelomes, selon la technique de Kohler et 

25 Milstein (Nature, 1975, 256, 495-497) ; les hybridomes sont cultives in vitro, notam- 
ment dans des fermenteurs ou produits in vivo, sous forme d'ascite ; alternativement 
lesdits anticorps monoclonaux sont produits par genie genetique comrae d^crit dans le 
brevet am6ricain US 4,816,567. 

Les anticorps humanises sont produits par des methodes generales 

30 comme celles decrites dans la Demande Internationale WO 98/45332. 

Les fragments d'anticorps sont produits a partir des regions Vh et 
V L donees, a partir des ARNm d'hybridomes ou de lymphocytes spl6niques d'une 
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souris immunisee ; par exemple, les fragments Fv, scFv ou Fab sont exprimSs a la 
surface de phages filamenteux selon la technique de Winter et Milstein (Nature, 1991, 
349, 293-299) ; apres plusieurs &apes de s61ection, les fragments d'anticorps 
sp£cifiques de Tantigene sont isotes et exprimes dans un systeme ^expression appro- 
5 prie, par les techniques classiques de clonage et ^expression d'ADN recombinant. 

Les anticorps ou leur fragments tels que definis ci-dessus, sont 
purifies par les techniques classiques connues de PHomme du metier, telles que la 
chromatographic d'affinite. 

La presente invention a en outre pour objet Futilisation d'un produit 

10 selectionne dans le groupe constitue par : une paire d'amorces, une sonde, une puce a 
ADN, un vecteur recombinant, une cellule modifiee, une souche isolee de coronavirus, 
un polynucleotide, une proteine ou un peptide, un anticorps ou un fragment 
d'anticorps, et une puce a proteine tels que definis ci-dessus, pour la preparation d'un 
reactif de detection et eventuellement de genotypage/serotypage, d'un coronavirus 

1 5 associe au SRAS. 

Les proteines et les peptides selon l'invention, qui sont aptes a etre 
reconnus et/ou a induire la production d'anticorps speciftques du coronavirus associe 
au SRAS, sont utiles pour le diagnostic de l'infection par un tel coronavirus ; 
Tinfection est detectee, par une technique appropriee- notamment EIA, ELISA, RIA, 

20 immunofluorescence-, a partir d'un echantillon biologique preleve chez un individu 
susceptible d'etre infecte. 

Selon une disposition avantageuse de ladite utilisation, lesdites 
proteines sont selectionnees dans le groupe constitue par les proteines S, E, M et/ou N 
et les peptides tels que definis ci-dessus. 

25 Les prot&nes S, E, M et/ou N et les peptides deriv6s de ces proteines 

tels que ddfinis ci-dessus, par exemple la proteine N, sont utilis6es pour le diagnostic 
indirect d'une infection a coronavirus associe au SRAS (diagnostic s6rologique; 
detection d'anticorps specifiques du SARS-CoV), notamment par une methode 
immunoenzymatique (ELISA). 

30 Les anticorps et les fragments d'anticorps selon l'invention, 

notamment ceux dirig6s contre les prot&nes S, E, M et/ou N et les peptides derives 
tels que definis ci-dessus, sont utiles pour le diagnostic direct d'une infection a coro- 
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navirus associ6 au SRAS ; la detection de proteine(s) du SARS-CoV est realisee par 
une technique appropriee, notamment EIA, EL1SA, RIA, immunofluorescence a partir 
d'un echantillon biologique preleve chez un individu susceptible d'etre infecte. 

La presente invention a egalement pour objet une methode de detec- 
5 tion d'un coronavirus associ6 au SRAS, a partir d'un echantillon biologique, laquelle 
methode est caracterisee en ce qu'elle comprend au moins : 

(a) la mise en contact dudit Echantillon biologique avec au moins un 
anticorps ou un fragment d'anticorps, une proteine, un peptide ou bien une puce ou un 
filtre a proteine ou a peptide tels que definis ci-dessus, et 
10 (b) la revelation par tout moyen appropri6 des complexes antigene- 

anticorps formes en (a), par exemple par EIA, ELISA, RIA, ou par immunofluores- 
cence. 

Selon un mode de mise en ceuvre avantageux dudit procede l'6tape 

(a) comprend : 

1 5 ( a ,) la mise en contact dudit echantillon biologique avec au moins un 

premier anticorps ou un fragment d'anticorps qui est fixe sur un support approprie, 
notamment une microplaque, 

(a 2 ) le lavage de la phase solide, et 

(a 3 ) l'addition d'au moins un second anticorps ou un fragment 
20 d'anticorps, different du premier, ledit anticorps ou fragment d'anticorps etant 
6ventuellement marqu6 de facon appropriee. 

Ce procede qui permet de capturer les particules virales presentes 
dans l'echantillon biologique est egalement dSnomme proced6 d'immunocapture. 
Par exemple : 

25 . l'6tape (ai) est realisee avec au moins un premier anticorps mono- 

clonal ou polyclonal ou un fragment de ceux-ci, dirige centre la proline S, M, et/ou 
E, et/ou un peptide correspondant a l'ectodomaine de l'une de ces proteines (peptides 
M2-14ouEl-12) 

- l'etape (a 3 ) est realisee avec au moins un anticorps ou un fragment 
30 d'anticorps dirig6 centre un autre epitope de la meme proteine ou de pr6ference contre 
une autre proteine, de maniere preferee contre une proteine interne telle que la nucleo- 
proteine N ou l'endodomaine de la proteine E ou M, de maniere encore plus pr6feree 
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il s'agit d'anticorps ou de fragments d'anticorps diriges contre la proteine N qui est 
tres abondante dans la particule virale; lorsqu'un anticorps ou un fragment 
d'anticorps dirige contre une proline interne (N) ou contre 1'endodomaine des 
proteines E ou M est utilis6, le dit anticorps est incube en presence de detergent, 
corame le Tween 20 par exemple, a des concentrations de Fordre de 0,1 %. 

- l'6tape (b) de rev61ation des complexes antigene-anticorps formes 
est realisee, soit directement a l'aide d'un second anticorps marque par exemple avec 
de la biotine ou une enzyme appropriee telle que la peroxydase ou la phosphatase 
alcaline, soit indirectement a l'aide d'un s6rum anti-immunoglobulines marque 
comme ci-dessus. Les complexes ainsi formes sont reveles a Taide d'un substrat 
approprie. 

La presente invention a en outre pour objet un kit de detection d'un 
coronavirus associe au SRAS, caract^rise en ce qu'il comprend au moins uh reactif 
selectionne dans le groupe constitue par : une paire d'amorces, une sonde, une puce a 
ADN ou a ARN, un vecteur recombinant, une cellule modifiee, une souche isolee de 
coronavirus, un polynucleotide, une proteine ou un peptide, un anticorps, et une puce a 
proteine tels que definis ci-dessus. 

La presente invention a en outre pour objet, une composition 
immunogene, caracterisee en ce qu'elle comprend au moins un produit selectionnS 
dans le groupe constitue par : 

a) une proteine ou un peptide tels que definis ci-dessus, 

b) un polynucleotide de type ADN ou ARN ou l'un de ses fragments 
repr6sentatifs tels que d6finis ci-dessus, de sequence choisie parmi : 

(i) la sequence SEQ ID NO : 1 ou son equivalent ARN 

(ii) la sequence hybridant dans des conditions de forte stringence 
avec la s6quence SEQ ID NO : 1, 

(iii) la sequence compl6mentaire de la sequence SEQ ID NO : 1 ou 
de la sequence hybridant dans des conditions de forte stringence avec la sequence 
SEQ ID NO: 1, 

(iv) la sequence nucleotidique d'un fragment representatif du poly- 
nucleotide tel que defini en (i), (ii) ou (iii), 

(v) la sequence telle que definie en (i), (ii), (iii) ou (iv), modifiee, et 
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c) un vecteur d' expression recombinant comprenant un 
' polynucleotide tel que defini en b), et 

d) une banque d' ADNc telle que d6fmie ci-dessus, 

ladite composition immunogene etant capable d'induire une immunite humorale ou 
5 cellulaire protectrice specifique du coronavirus associe au SRAS, notamment la 
. production d'un anticorps dirige contre un epitope specifique du coronavirus associe 
au SRAS. 

Les proteines et les peptides tels que d&finis ci-dessus, notamment 
les proteines S, M, E et/ou N et les peptides deriv6s, ainsi que les molecules d'acide 
10 nucl&que (ADN ou ARN) codant lesdites proteines ou lesdits peptides, sont de bons 
candidats vaccin et peuvent etre utilisees dans des compositions immunogenes pour la 
production d'un vaccin contre ie coronavirus associe au SRAS. 

Selon un mode de realisation avantageux des compositions selon 
l'invention, elles contiennent en outre, au moins un vehicule pharmaceutiquement 
1 5 acceptable et eventuellement des substances porteuses et/ou des adjuvants. . 

Les vehicules pharmaceutiquement acceptables, les substances te 
porteuses et les adjuvants sont ceux classiquement utilises. s . ; . 

Les adjuvants sont avantageusement choisis dans le groupe constitue , .. 
par des emulsions huileuses, de la saponine, des substances minerales, des extraits 
20 bacteriens, de Thydroxyde d'alumine et le squalene. 

Les substances porteuses sont avantageusement selectionnees dans 
le groupe constitue par des liposomes unilamellaires, des liposomes multilamellaires, 
des micelles de saponine ou des microspheres solides de nature saccharidique ou 
aurifere. 

25 Les compositions selon Finvention, sont administrees par voie 

generale, notamment intramusculaire ou sous-cutanee ou bien par voie locale notam- 
ment nasale (aerosol). 

La presente invention a egalement pour objet Tutilisation d'ime 
proteine ou d'un peptide isole ou purifie presentant une sequence selectionnee dans le 

30 groupe constitu6 par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 
33, 35, 37, 69, 70, 71, 74 et 75 pour former un complexe immun avec un anticorps 
dirige specifiquement contre un Epitope du coronavirus associd au SRAS. 
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La presente invention a 6galeraent pour objet un complexe imimm 
forme d'une proteine ou (Tun peptide isole ou purifie presentant une sequence s61ec- 
tionnee dans le groupe constituS par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 
24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, et d'un anticorps dirig6 specifiquement 

5 contre un epitope du coronavirus associe au SRAS. 

La presente invention a egalexnent pour objet l'utilisation d'une 
proteine ou d'un peptide isolS ou purifie presentant une sequence selectionnSe dans le 
groupe constitue par les sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 
33, 35, 37, 69, 70, 71, 74 et 75 pour induire la production d'un anticorps capable de 

10 reconnaitre specifiquement un epitope du coronavirus associ6 au SRAS. 

La presente invention a egalement pour objet 1'utilisation d'un poly- 
nucleotide isole ou purifie presentant une sequence selectionn6e dans le groupe 
constitu6 par les sequences SEQ ID NO : 1, 2, 4, 7, 8, 13, 15, 16, 18, 19, 20, 31, 36 et 
38 pour induire la production d'un anticorps dirige contre la proteine codee par ledit 

15 polynucleotide et capable de reconnaitre specifiquement un epitope du coronavirus 
associe au SRAS 

Outre les dispositions qui precedent, I'invention comprend encore 
d'autres dispositions, qui ressortiront de la description qui va suivre, qui se r£fere a 
des exemples de mise en oeuvre du polynucleotide representant le genome de la 
20 souche de SARS-CoV issue du pr£levement repertorie sous le numero 031589, et des 
fragments d'ADNc derives objets de la presente invention, ainsi qu'au Tableau I 
♦ presentant la liste des sequences : 



Tableau I : Liste des sequences 



numero 
d'identification 


Sequence 


Position de 
I'ADNc en 

reference a 
Genbank 

AY274119.3 


Numero de 
depot a la CNCM 

du plasmide 
correspondant 


SEQ ID NO : 1 


genome de la 
souche issue du 
prelevement 
031589 






SEQ ID NO : 2 


ORF-S* 


21406-25348 




SEQ ID NO : 3 


Proteine S 






SEQ ID NO : 4 


ORF-S** 


21406-25348 


I-3059 


SEQ ID NO : 5 


fragment Sa 


21406-23454 


I-3020 



I C5I UCyul 
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SEQ ID NO : 6 


fragment Sb 


23322-25348 


1-3019 


SEQ ID NO : 7 


ORF-3+ORF-4* 


25110-26244 


- 


SEQ ID NO : 8 


ORF-3+ORF-4** 


25110-26244 


1-3126 


SEQ ID NO : 9 ! 


ORF3 


- 


- 


SEQ ID NO : 10 


Proteine ORF-3 


- 




SEQ ID NO : 1 1 


ORF4 


- 


- 


SEQ ID NO: 12 


Proteine ORF-4 


- 


- 


SEQ ID NO: 13 


ORF-E* 


26082-26413 


- 


SEQ ID NO : 14 


Proteine E 


- 


- 


SEQ ID NO: 15 


ORF-E** ! 


26082-26413 


I-3046 


SEQ ID NO: 16 


ORF-M* 


26330-27098 


- 


SEQ ID NO: 17 


Proteine M 


- 


- 


SEQ ID NO: 18 


ORF-M** 


26330-27098 


I-3047 


SEQ ID NO: 19 


ORF7a 11* 


26977-28218 




SEQ ID NO : 20 


ORF7a 11** 


26977-28218 


1-3125 


SEQ ID NO : 21 


ORF7 


- 


- 


SEQ ID NO : 22 


Proteine ORF7 


- 


- 


SEQ ID NO : 23 


ORF8 


- 


- 


SEQ ID NO : 24 


Proteine ORF8 


! 


- 


SEQ ID NO : 25 


ORF9 


- 




SEQ ID NO : 26 


Proteine ORF9 


- 




SEQ ID NO : 27 


ORF10 


- 


- 


SEQ ID NO : 28 


Proteine ORF10 


- 


- 


SEQ ID NO : 29 


ORF11 


- 




SEQ ID NO : 30 


Proteine ORF1 1 


- 


- 


SEQ ID NO: 31 


OrFlab 


265-21485 


4*. 


SEQ ID NO : 32 


ORF13 


28130-28426 


■ * 


SEQ ID NO : 33 


Proteine ORF13 


- 


- 


SEQ ID NO : 34 


ORF14 






SEQ ID NO : 35 


Proteine ORF14 


28583-28795 


- 


SEQ ID NO : 36 


ORF-N* 


28054-29430 




SEQ ID NO : 37 


Proteine N 


- 


- 


SEQ ID NO : 38 


ORF-N** 


28054-29430 


I-3048 


SEQ ID NO : 39 


5'non-codante** 


1-204 


1-3124 


SEQ ID NO : 40 


3'non-codante** 


28933-29727 


1-3123 


SEQ ID NO: 41 


ORFlab 

Fragment L0 


30-500 


- 


SEQ ID NO : 42 


Fragment L1 


211-2260 


- 


SEQ ID NO : 43 


[ Fragment L2 


2136-4187 




SEQ ID NO : 44 


Fragment L3 


3892-5344 




SEQ ID NO : 45 


Fragment L4b 


4932-6043 




SEQ ID NO : 46 


Fragment L4 


5305-7318 




SEQ ID NO : 47 


l Fragment L5 


7275-9176 




SEQ ID NO : 48 


Fragment L6 


9032-11086 




SEQ ID NO : 49 


Fragment L7 


10298-12982 




SEQ ID NO : 50 


Fragment L8 


12815-14854 
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SEQ ID NO : 51 


Fragment L9 


14745-16646 




SEQ ID NO : 52 


Fragment L10 


16514-18590 


- 


SEQ ID NO * 53 


Fragment L1 1 


18500-20602 




SEQ ID NO : 54 


Fragment L12 


20319-22224 


- 


qfo in NO " 55 


Amornp N sens 






SEQ ID NO : 56 


Amorce N 

cx \ mod to 


- 


- 


SEQ ID NO : 57 ! 


Amorce Sc sens 


- 


- 


otU IU Nw . Do 


A mrwr*^ ^» cone 
/-\lTI(Jl OL otJIlO 






SEQ ID NO : 59 


Amorce S c e t Sl 
aniioens 


- 


- 




oCl It? I 








/-\illwlwO d! llloCI lo 

Ovl ! w 1 


78774-28759 




SEQ ID NO : 62 


Amorce sens 

OCI IV/ /— 


28375-28390 


- 


QFO in MO • fi^ 


rMIIUIOC ClI lUOvl io 

oArip 2 

OCI Iw /— 


28702-28687 




^FO ID NO * 64 


5^ondp l/^eris 1 


28561-28586 




CFO ID NO * 65 


5>nn<ip 2/^£rip 1 


28588-28608 




cpn in MO • 6fi 


9onHp 1/^prip 2 


28541-28563 




cpn in MO • ft7 


OUi lUw It? ^ 


28565-28589 

£,OJl/w ^.w w wC/ 






/AIIIwIwO clllwlt? 

14T 






SEQ ID NO : 69 


Peptide M2-14 






SEQ ID NO : 70 


Peptide E1-12 






SEQ ID NO : 71 


Peptide E53-76 






SEQ ID NO : 72 


5'non-codante* 


1-204 




SEQ ID NO : 73 


3'non-codante* 


28933-29727 




SEQ ID NO : 74 


Proteine ORF1a 






SEQ ID NO: 75 


Proteine ORF1b 






SEQ ID NO:76-139 


Amorces 







* produit d'amplification PCR (amplicon) 

** insert clone dans le plasmide depose a la CNCM 

ainsi qu'aux dessins annexes dans lesquels : 



- la figure 1 illustre Fanalyse par Western-blot de P expression in 
5 vitro des prolines recombinantes N, Sc et S L a partir des vecteurs d'expression 

pIVEX. Piste 1 : pIV23N. Piste 2 : pIV2.3S c . Piste 3 : pIV2.3S L . Piste 4 : pIV2.4N. 
Piste 5 : pIV2.4Si ou pIV2.4S c . Piste 6 : pIV2.4S L . U expression de la proteine GFP 
exprimee a partir du raeme vecteur est utilis6e comme controle. 

- la figure 2 illustre Fanalyse par 6Iectrophor6se en gel de 
10 polyacrylamide en conditions denaturantes (SDS-PAGE) et coloration au bleu de 
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Coomassie, de P expression in vivo de la proteine N a partir des vecteurs d'expression 
pIVEX. La souche d'Rcoli BL21(DE3)pDIA17 transformee par les vecteurs pIVEX 
recombinants est cultivee a 30°C dans du milieu LB, en presence ou en Pabsence 
d'inducteur (IPTG ImM). Piste 1 : pIV2.3N Piste 2 : plV2,4N. 
5 - la figure 3 illustre Fanalyse par Slectrophorese en gel de 

polyacrylamide en conditions d6naturantes (SDS-PAGE) et coloration au bleu de 
Coomassie, de P expression in vivo des polypeptides S L et Sc a partir des vecteurs 
d'expression pIVEX. La souche d'Rcoli BL21(DE3)pDIA17 transformee par les 
vecteurs pIVEX recombinants est cultivee a 30°C dans du milieu LB, en presence ou 
10 en l'absence d'inducteur (IPTG ImM). Piste 1 : pIV2.3S c Piste 2 : pTV23S L . Piste 3 : 
pIV2.4St Piste 4 : pIV2,4S L . 

- la figure 4 illustre Tactivite antigenique des proteines N, S L et S c 
recombinantes produites dans la souche E. coli BL21(DE3)pDIA17 transformee par 
les vecteurs pIVEX recombinants. A : electrophorese (SDS-PAGE) des lysats bacte- 

15 riens.B et C : Westernh-blot avec les serums, provenant d'un raerae patient infecte par 
le SARS-CoV, preleves respectivement 8 jours (B : serum M12) et 29 jours-(C : 
s6rum Ml 3) apres le debut des symptomes du SRAS. Piste 1 : pIV2.3N. Piste 2 : 
pIV2.4N. Piste 3 : pIV23S 0 Piste 4 : pIV2.4 Si. Piste 5 : pIV2.3S L . Piste 6 : prV2.4S L 

- la figure 5 illustre la purification sur colonne Ni-NTA agarose de la 
20 proteine N recombinante produite dans la souche E. coli BL21(DE3)pDIA17 a partir 

du vecteur pIV2.3N. Piste 1 : Extrait bact^rien totaL Piste 2 : Extrait soluble. Piste 3 : 
Extrait insoluble. Piste 4 : Extrait depose sur la colonme Ni-NTA. Piste 5 : proteines 
non-retenues. Piste 6 : Fractions du pic 1 , Piste 7 : Fractions du pic 2. 

- la figure 6 illustre la purification de la proteine Sc recombinante a 
25 partir des corps d'inclusions produits dans la souche is. coli BL21(DE3)pDIA17 trans- 
formee par le pIV2.4Si.A. Traitement au Triton X-100 (2%) : Piste 1 : Extrait 
bacterien total. Piste 2 : Extrait soluble. Piste 3 : Extrait insoluble. Piste 4 : Sumageant 
apres traitement au Triton X-100 (2 %). Pistes 5 et 6 : Culot apres traitement au Triton 
X-100 (2 %).B : Traitement k l'uree 4M, 5M, 6M et 7M des extraits solubles et inso- 

30 lubles. 
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- la figure 7 represente l'inununoempreinte realisee a I'aide d'un 
lysat de cellules infectees par le SARS-CoV et d'un serum de patient atteint de 

pneumopathie atypique. 

- la figure 8 represente des immunoempreintes realisees a I'aide 
5 d'un lysat de cellules infectees par le SARS-CoV et d'immunserums de lapins speci- 

fiques de la nucleoproteine N (A) et de la proteine de spicule S (B). IS. : serum 
immun. p.i. : serum pre-immun. L'immunserum anti-N a ete utilise au 1/50000 et 

l'immunserum anti-S au 1/10000. 

- la figure 9 illustre la reactivite en ELISA des serums polyclonaux 
10 monospecifics de lapin diriges centre la proteine N ou le fragment court de la 

proteine S (S c ), vis-a-vis des prolines recombinantes correspondantes utilis6es pour 
1'immunisation. A : lapins P13097, P13081, et P13031 immunis6s avec la proteine N 
recombinante purifie. B : lapins P11135. P13042, et P14001 immunises avec une 
preparation de corps d'inclusions correspondants au fragment court de la proteine S 

1 5 (Sc). I S. : serum immun. p.i. : serum pre-immun. 

. ia figure 10 illustre la reactivite en ELISA de la proteine N 
recombinante purifiee, vis-a-vis de serum de patients atteints de pneumonie atypique 
causee par le SARS-CoV. Figure 1 0a : plaques ELISA prepares avec la proteine N a la 
concentration de 4 ng/ml et 2 ug/ml. Figure 10b : plaque ELISA preparee avec la 

20 proteine N a la concentration de 1 Hg/ml. Les serums designes A, B, D, E, F, G, H 

correspondent a ceux du Tableau IV. 

- la figure 11 illustre l'amplification par RT-PCR de quantites 
decroissantes d'ARN synthetique du gene N du SARS-CoV (10 7 a 1 copie), a I'aide 
des couples d'amorces n° 1 (N/ + /28507,N/-/28774) (A) et n° 2 (N/+/28375.N/-/28702) 
25 (B). T : amplification r6alisee en l'absence d'ARN. MW : marqueur d'ADN. 

- la figure 12 illustre l'amplification par RT-PCR en temps reel 
d'ARN synthetique du gene N du SARS-CoV : des quantites decroissantes d'ARN 
synthetique en repliquat (repli. ; pistes 16 a 29) ainsi que de l'ARN viral dilue au 
1/20x10^ (piste 32) ont ete amplifies par RT-PCR en temps reel a I'aide du kit "Light 

30 Cycler RNA Amplification Kit Hybridization Probes" et des couples d'amorces et de 
sondes de la s6rie n° 2, dans les conditions decrites a l'exemple 7. 
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- la figurel3 (figure 13.1 a 13.70) represente la carte de restriction 
de la sequence SEQ ID NO : 1 correspondant a l'equivalent ADN du genome de la 
souche de SARS-CoV issue du prelevement repertorie sous le numero 031589. 

II doit etre bien entendu, toutefois, que ces exemples sont donnes 
uniquement a titre d' illustration de l'objet de Invention, dont ils ne constituent en 
aucune maniere une limitation. 

Exemme 1 : Clonage et sequencage du genome dc la souche de SARS-CoV issue 
du prelevement repertorie sous le numero 031589 

L'ARN de la souche de SARS-CoV a ete extrait a partir du prele- 
vement de lavage bronchoalveolaire repertorie sous le numero 03 1 589, effectue sur un 
patient de l'h6pital francais de Hanoi (Vietnam) atteint de SRAS. 

L'ARN isole a ete utilise comme matrice pour amplifier les ADNc 
correspondant aux differents cadres ouverts de lecture du g6nome (ORF la, ORFlb, 
ORF-S, ORF-E, ORF-M, ORF-N (incluant les ORF-13 et ORF-14), ORF3, ORF4, 
ORF7 a ORF11), et aux extremes 5' et 3' non-codantes. Les sequences des amorces 
et des sondes utilises pour 1' amplification/detection ont ete definies d'apres la 
sequence nucleotidique disponible du SARS-CoV. 

Dans ce qui suit les amorces et les sondes sont identifiees par : la 
lettre S, suivie d'une lettre qui indique la region correspondante du genome (L pour 
1'extremite 5'incluant ORF1 a et ORFlb ; S, M et N pour les ORF-S, ORF-M, ORF-N, 
SE et MN pour les regions intergeniques correspondantes), puis eventuellement de Fn, 
Rn, avec n inclus entre 1 et 6 correspondant aux amorces utilisees pour la PCR nichee 
ouimbriquee (paire Fl + Rl pour la premiere amplification, pake F2 + R2 pour la 
deuxieme amplification, etc.), puis de /+/ ou /-/ correspondant a une amorce sens ou 
antisens et enfin des positions des amorces en reference a la sequence Genbank 
AY2741L3 ; pour les amorces S et N sens et antisens et les autres amorces sens 
uniquement, lorsqu'une seule position est indiquee elle correspond a celle de 
l'extremit6 5' d'une sonde ou d'une amorce d'environ 20 bases ; pour les amorces 
antisens autres que les amorces S et N, lorsqu'une seule position est indiquee elle 
) correspond a celle de 1'extremite 3' d'une sonde ou d'une amorce d'environ 20 bases. 

Les produits d' amplifications ainsi generes ont ete sequences a 
l'aide d'amorces specifiques afin de determiner la sequence complete du genome de la 



29 

souche de SARS-CoV issue du prelevement repertorie sous le num&ro 031589. Ces 
produits d'amplification, a 1'exception de ceux correspondant aux ORFla et ORFlb, 
ont ensuite 6te clones dans des vecteurs d'expression afm de produire les proteines 
virales correspondantes et les anticorps diriges contre ces prot&nes, notamment par 
5 immunisation a base d'ADN. 

1. Extraction des ARN 

Les ARN ont ete extraits a 1' aide du kit QIamp viral RNA extraction 
mini (QIAGEN) en suivant les recommandations du fabricant. De maniere plus 
precise : 140 ^il du prSlevement et 560 ^1 de tampon AVL ont ete m61ang6s vigoureu- 

10 sement pendant 15 secondes, incubes 10 min a temperature ambiante puis centrifuges 
brievement a vitesse maximale. 560 |jtl d'&hanol a 100% ont ete ajoutes au surnageant 
et le melange ainsi obtenu a ete agite tres vigoureusement pendant 15 sec. 630 fil du 
melange ont ensuite 6te deposes sur la colonne. 

La colonne a ete placee sur un tube de 2 ml, centrifugee 1 min a 

15 8000 rpm, puis le reste du melange precedent a ete depose sur la raeme colonne, 
centrifuge a nouveau, 1 min a 8000 rpm et la colonne a ete transferee sur un tube de 2 
ml propre. Ensuite, 500 jal de tampon AW1 ont ete ajoutes sur la colonne, puis la 
colonne a ete centrifugee 1 min a 8000 rpm et l'eluat a et6 elimine. 500 \x\ de tampon 
AW2 ont ete ajoutes sur la colonne qui a ensuite ete centrifugee 3 min a 14000 rpm et 

20 transferee sur un tube de 1,5 ml. Enfin, 60 jil de tampon AVE ont ete ajoutes sur la 
colonne qui a 6t6 incubee 1 a 2 min a temperature ambiante puis centrifugee 1 min a 
8000 rpm. L'61uat correspondant h 1'ARN purifiS a 6te r6cupere et congete a -20°C. 

2. Amplification. s£quencage et clonage des ADNc 
2.1) ADNc codant pour la proteine S 

25 Les ARN extraits k partir du pr616vement ont ete soumis a une trans- 

cription inverse k Taide d'oligonucteotides hexam&iques de sequence aleatoire 
(pdN6), afin de produire des fragments d'ADNc. 

La sequence codant pour la glycoprot&ne S du SARS-CoV a 6t6 
amplifiee sous la forme de deux fragments d'ADN chevauchants : fragment 5 4 

30 (SRAS-Sa, SEQ ID NO:5) et fragment 3'(SRAS-Sb, SEQ ID NO;6), en rSalisant deux 
amplifications successives a l'aide d'amorces imbriqu6es. Les amplicons ainsi obtenus 
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ont ete s6quenc6s, clones dans le vecteur plasmidique PCR 2.1-TOPO™ (IN 
VITROGEN), puis la sequence des ADNc clones a ete d6terminee. 
a telonage et sequencage des fragments Sa et Sb 
aj) synthese de 1/ADNc 
5 Le melange reactionnel contenant : ARN (5 jil) , H2O ppi (3,5 fil), 

tampon de transcriptase inverseSX (4 jxl,), dNTP 5 mM (2 jil), pdN6 100 ug/ml (4 p,l), 
RNasin 40 Ul/ul (0,5 jlx!> et transcriptase inverse AMV-RT, 10 UI/ul, PROMEGA 
(l(il) a 6te incube dans un thermocycleur dans les conditions suivantes : 45 min a 
42°C, 15 min a 55°C, 5 min a 95°C, puis 1' ADNc obtenu a 6te maintenu a +4°C. 

1 0 a.2) premi ere amplification PCR 

Les extn&mites 5' et 3' du gene S ont ete amplifiees respectivement 
avec les paires d'amorces S/F1/+/ 21350-21372 et S/Rl/-/ 23518-23498, S/F3/+/ 
23258-23277 et S/R3/-/253 82-253 63. Le melange reactionnel de 50 fil contenant : 
ADNc (2 nl), amorces 50 |iM (0,5 |al), tampon 10 X (5 jal), dNTP 5 mM (2 ptl), Taq 

15 Expand High Fidelity, Roche (0,75 fil) et H 2 0 (39, 75 |il)a et6 amplifie dans un 
thermocycleur, dans les conditions suivantes : une etape initiale de denaturation a 
94°C pendant 2 min a 6te suivie de 40 cycles comprenant : une etape de denaturation a 
94°C pendant 30 sec, une etape d'hybridation a 55°C pendant 30 sec puis une etape 
d'elongation a 72°C pendant 2 min 30 sec, avec 10 sec d'elongation supplemental a 

20 chaque cycle, puis d'une &ape finale d'Slongation a 72°C pendant 5 min. 

a3> ^^X^PJimS^^^S^t 

Les produits de la premiere amplification PCR (amplicons 5' et 3') 
ont subi une seconde 6tape d' amplification PCR (PCR nichee) dans des conditions 
identiques a celles de la premiere amplification, avec les paires d'amorces 
25 S/F2/+/21406-21426 et S/R2/-/23454-23435, et S/F4/+/23322-23341 et S/R4/-/25348- 
25329," respectivement pour 1'amplicon 5* et l'amplicon 3\ 
a4).clpna^ 

Les amplicons Sa (extremite 5') et Sb (extremite 3') ainsi obtenus ont 
ete purifies a Taide du kit QIAquick PCR purification (Q1AGEN), en suivant les 
30 recommandations du fabricant, puis ils ont et6 clon6s dans le vecteur PCR2.1-TOPO 
(kit Invitrogen), pour donner les plasmides denomm6s SRAS-S1 et SRAS-S2. 



31 

L'ADN des clones Sa et Sb a ete isole puis Pinsert correspondant a 
6te sequence k l'aide du Kit Big Dye, Applied Biosystem® et des amorces univer- 
selles M13 forward et M13 reverse, ainsi que des amorces: S/S/+/21867, 
S/S/+/22353, S/S/+/22811, S/S/+/23754, S/S/+/24207, S/S/+/24699, S/S/+/24348, 
5 S/S/-/24209, S/S/-/23630, S/S/-/23038, S/S/-/22454, S/S/-/21815, S/S/-/24784, 
S/S/+/21556, S/S/+/23130 et S/S/+/24465, en suivant les instructions du fabricant ; les 
sequences des fragments Sa et Sb ainsi obtenues correspondent aux sequences SEQ ID 
NO :5 et SEQ ID NO :6 dans la liste de sequences jointe en annexe. 

Le plasmide, denomm6 SARS-S1 a 6te depose sous le n° 1-3020, le 
10 12 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient un fragment 5' de la 
sequence du gene S de la souche de SARS-CoV issue du prelevement repertorie sous 
le n° 031589, telle que definie ci-dessus, lequel fragment denomme Sa correspondant 
aux nucleotides des positions 21406 a 23454 (SEQ ID NO :5), en reference a la 
1 5 sequence Genbank AY2741 1 9.3 Tor2. 

Le plasmide, denomme TOP10F'-SARS-S2 a 6te depose sous le n° 
1-3019, le 12 mai 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724. Paris Cedex 15 ; il contient un 
fragment 3'de la sequence du gene S de la souche de SARS-CoV issue du preleve- 
20 ment repertorie sous le n* 031589, telle que definie ci-dessus, lequel fragment 
denomme Sb correspondant aux nucleotides des positions 23322 a 25348 (SEQ ID 
NO : 6), en reference a la sequence Genbank n° d'acces AY2741 19.3. 
W) ^lnn a pft gt s&mencae e <te V ADNc comnlet (clone SR AS-S de 4 kb) 

L'ADNc S complet a et6 obtenu a partir des clones SARS-S1 et 

25 SARS-S2 precites, de la facon suivante : 

1) une rdaction d' amplification PCR a 6te realis6e sur un clone 
SARS-S2 en presence de 1' amorce S/R4/-/25348-25329 precitee et de r amorce 
S/S/+/24696-247 1 5: un amplicon de 633 bp a ete obtenu, 

2) une autre reaction d'amplification PCR a ete realisee sur un autre 
30 clone SARS-S2, en presence des amorces S/F4/+/23322-23341 precitee et S/S/- 
/24803-24784: un amplicon de 1481 pb a ete obtenu, 
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La faction d' amplification a 6te realist dans les conditions telles 
que definies ci-dessus pour 1' amplification des fragments Sa et Sb, a 1'exception que 
30 cycles d' amplifications comprenant une 6tape de denaturation a 94° C pendant 20 
sec et une etape d'elongation a 72° C pendant 2 min 30 sec ont ete effectues. 
5 3) les 2 amplicons (633 pb et 1481 pb) ont ete purifies dans les 

conditions telles que d6finies ci-dessus pour les fragments Sa et Sb. 

4) une autre reaction d' amplification PCR a l'aide des amorces 
S/F4/+/23322-23341 et S/R4/-/25348-25329 precitees, a ete realisee sur les amplicons 
purifies obtenus en 3). La reaction d' amplification a ete realis6e dans les conditions 
10 telles que definies ci-dessus pour 1' amplification des fragments Sa et Sb, a 1'exception 
que 30 cycles d' amplifications ont ete effectues. 

L'amplicon de 2026 pb ainsi obtenu a ete purifie, clone dans le 
vecteur PCR2.1-TOPO puis sequence comme ci-dessus, a l'aide des amorces telles 
que definies ci-dessus pour les fragments Sa et Sb. Le clone ainsi obtenu a ete 

15 denomme clone 3'. 

5) Le clone SARS-S1 precedemment obtenu et le clone 3'ont ete 
diger6s par EcoR I, les bandes d'environ 2kb ainsi obtenues ont ete purifiees sur gel 
puis amplifies par PCR avec les amorces S/F2/+/2 1406-21 426 et S/R4/-/25348- 
25329 precitees. La reaction d'amplification a et6 realisee dans les conditions telles 
20 que definies ci-dessus pour 1' amplification des fragments Sa et Sb, a 1'exception que 
30 cycles d' amplifications ont ete effectues. L'amplicon d'environ 4 kb a ete purifie et 
sequence II a ensuite 6te clone dans le vecteur PCR2.1-TOPO pour donner le 
plasmide, denomme SARS-S, et l'insert contenu dans ce plasmide a ete sequence 
comme ci-dessus, a l'aide des amorces telles que d6finies ci-dessus pour les fragments 
25 Sa et Sb. Les sequences d'ADNc de l'insert et de l'amplicon codant pour la proline 
S, correspondent respectivement. aux sequences SEQ ID NO : 4 et SEQ ID NO : 2 
dans la liste de sequences jointe en annexe, elles cedent pour la prot6ine S (SEQ ID 
NO : 3). 

La sequence de l'amplicon correspondant a l'ADNc codant pour la 
30 proteine S de la souche de SARS-CoV issue du prelevement n°031589 presente les 
deux mutations suivantes par rapport aux sequences correspondantes de respective- 
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ment les isolats Tor2 et Urbani, les positions des mutations etant indiquees en refe- 
rence a la sequence complete du genome de Tisolat Tor2 (Genbank AY2741 1 9.3) : 

- g/t en position 23220 ; le codon alanine (get) en position 577 de la 
sequence en acides amines de la proline S de Tor2 est remplace par un codon serine 

5 (tct), 

- c/t en position 24872 : cette mutation ne modifie pas la sequence 
en acides amines de la proteine S, et 

Le plasmide, denomme SARS-S, a 6t6 depose sous le n° 1-3059, le 
20 juin 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 

10 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 
pour la proteine S de la souche de SARS-CoV issue du prelevement repertorie sous le 
n° 031589, laquelle sequence correspondant aux nucleotides des positions 21406 a 
25348 (SEQ ID NO :4), en ref6rence a la sequence Genbank AY2741 19.3. 
2,2) ADNc codant pour les proteines M et E 

15 Les ARN issus du prelevement 031589, extraits comme ci-dessus, 

ont ete soumis a une transcription inverse, associ6e, lors de la meme etape (kit Titan 
One Step RT-PCR®> Roche), a une reaction d ! amplification par PCR, a Taide des 
couples d' amorces : 

- S/E/F1/+/26051-26070 et S/E/R1/-/26455-26436 pour amplifier l'ORF-E, et 
20 - S/M/F1/+/26225-26244 et S/M/R1/-/271 48-271 29 pour amplifier I'ORF-M. 

Un premier melange reactionnel contenant : 8,6 jil d*H 2 Oppi, 1 jil de 
dNTP (5mM), 0,2 jil de chacune des amorces (SOjaM), 1,25 p,l de DTT (lOOmM) et 
0,25 \sX de RNAsin (40UI/|d) a ete combing avec un deuxteme melange reactionnel 
contenant : 1 jil d'ARN, 7 ^il d'H 2 Oppi, 5 jil de tampon de RT-PCR 5X et 0,5 \x\ de 
25 m61ange d' enzyme et les melanges combines ont ete incubes dans un thermocycleur 
dans les conditions suivantes : 30 min a 42°C, 10 min a 55°C, 2 min a 94°C suivi de 
40 cycles comprenant une etape de d&iaturation a 94°C pendant 10 sec, une Stape 
d'hybridation a 55°C pendant 30 sec et une etape d'elongation a 68°C pendant 45 sec, 
avec 3 sec decrement par cycle et enfin une etape d'elongation terminale a 68°C 
30 pendant 7 min. 
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Les produits d'amplification ainsi obtenus (amplicons M et E) ont 
subi une deuxieme amplification PCR (PCR nichee) en utilisant le kit Expand Higli- 
Fi®, Roche), a l'aide des couples d'amorces : 

- S/E/F2/+/26082-26101 et S/E/R2/-/26413-26394 pour l'amplicon E, et 

5 - S/M/F2/+/26330-26350 et S/M/R2/-/27098-27078 pour l'amplicon M. 

Le melange reactionnel contenant : 2 pi du produit de la premiere PCR, 39,25 pi 
d'H 2 Oppi, 5 pi de tampon 10X contenant du MgCl 2 , 2 pi de dNTP (5mM), 0,5pl de 
chacune des amorces (50 pM) et 0,75pl de melange d'enzyme a ete incube dans un 
thermocycleur dans les conditions suivantes : une etape de d6naturation a 94°C 

10 pendant 2 min a et6 suivie de 30 cycles comprenant une etape de denaturation a 94°C 
pendant 15 sec, une etape d'hybridation a 60°C pendant 30 sec et une etape 
d'elongation a 72°C pendant 45 sec, avec 3 sec ^increment par cycle, et enfin une 
etape d'elongation terminale a 72°C pendant 7 min. Les produits d'amplification 
obtenus correspondant aux ADNc codant pour les prot6ines E et M ont ete sequences 

15 comme ci-dessus, a l'aide des amorces: S/E/F2/+/26082 et S/E/R2/-/26394, 
S/M/F2/+/26330, S/M/R2/-/27078 precitees et des amorces S/M/+/26636-26655 et 
S/M/-/26567-26548. lis ont ensuite ete clones, comme ci-dessus, pour donner les 
plasmides denommes SARS-E et SARS-M. L'ADN de ces clones a ensuite ete isole et 
sequence a l'aide des amorces universelles Ml 3 forward et Ml 3 reverse ainsi que des 

20 amorces S/M/+/26636 et S/M/-/26548 precitees. 

La sequence de l'amplicon representant l'ADNc codant pour la 
proteine E (SEQ ID NO : 13) de la souche de SARS-CoV issue du prelevement 
n°031589 ne comporte pas de differences par rapport aux sequences correspondantes 
des isolats AY274119.3-Tor2 et AY278741-Urbani. La sequence de la proteine E de 

25 la souche de SARS-CoV 031589 correspond a la sequence SEQ ID NO : 14 dans la 
. liste de sequences jointe en annexe. 

Le plasmide, denomme SARS-E a efe depose sous le n° 1-3046, le 
28 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 

30 pour la proteine E de la souche de SARS-CoV issue du prelevement repertorie sous le 
n° 031589, telle que definie ci-dessus, laquelle sequence correspondant aux 
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nucleotides des positions 26082 a 26413 (SEQ ID NO :15), en reference a la s6quence 
Genbank n° d'acces AY2741 19.3. 

La sequence de Pamplicon representant l'ADNc codant pour la M 
(SEQ ID NO :16) de la souche de SARS-CoV issue du prelevement n°031589 ne 
5 comporte pas de differences par rapport a la sequence correspondante de Fisolat 
AY274119.3-Tor2. En revanche, en position 26857, Tisolat AY278741-Urbani 
comporte un c et la sequence de la souche de SARS-CoV issue du prelevement reper- 
tori6 sous le n°031589 un t. Cette mutation aboutit k une modification de la sequence 
en acides amines de la proteine correspondante: en position 154, une proline 

10 (AY278741-Urbani) est changee en serine dans la souche de SARS-CoV issue du 
prelevement r6pertorie sous le n°031589. La sequence de la proteine M de la souche 
de SARS-CoV issue du prelevement repertori6 sous le n°031589 correspond a la 
sequence SEQ ID NO :17 dans la liste de sequences jointe en annexe. 

Le plasmide, denomme SARS-M a et6 depose sous le n° 1-3047, le 

15 28 mai 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 
rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient la sequence d'ADNc codant 
pour la proteine M de la souche de SARS-CoV issue du prelevement repertoriS sous le 
n° 031589, telle que d^finie ci-dessus ; laquelle sequence correspondant aux 
nucleotides des positions 26330 a 27098 (SEQ ID NO :18), en reference a la sequence 

20 Genbank n° d'accds AY2741 1 9.3. 

23) ADNc correspondant aux ORF3, ORF4 3 ORF7 a ORF11 

La meme strategie d'amplification, de clonage et de sequen9age a et6 
utilisee pour obtenir les fragments d'ADNc correspondant respectivement aux ORF 
suivantes: ORF 3, ORF4, ORF7, ORF8, ORF9, ORF10 et ORF1L Les couples 

25 d'amorces utilisees pour la premiere amplification sont : 

- ORF3 et ORF4 : S/SE/F1/+/25069-25088 et S/SE/R1/-/263 00-26281 

- ORF7 a ORF1 1 : S/MN/F1/+/26898-26917 et S/MN/R1/-/28287-28266 

Les couples d'amorces utilisees pour la deuxieme amplification sont : 

- ORF3 et ORF4 : S/SE/F2/+/25 110-25 129 et S/SE/R2/-/26244-26225 
30 - ORF7 a ORF1 1 : S/MN/F2/+/26977-26996 et S/MN/R2/-/282 1 8-28 1 99 

Les conditions de la premiere amplification (RT-PCR) sont les 
suivantes : 45 min k 42°C, 10 min h 55°C, 2 min k 94°C suivi de 40 cycles compre- 
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nant une etape de denaturation a 94°C pendant 15 sec, une etape d'hybridation a 58°C 
pendant 30 sec et une etape d'elongation a 68°C pendant 1 min, avec 5 sec decre- 
ment par cycle et enfin une etape d'elongation terminale a 68°C pendant 7 min. 
Les conditions de la PCR nichee sont les suivantes : une etape de denaturation a 94°C 
5 pendant 2 min a 6t6 suivie de 40 cycles comprenant une etape de denaturation a 94°C 
pendant 20 sec, une etape d'hybridation a 58°C pendant 30 sec et une etape 
d'61ongation k 72°C pendant 50 sec, avec 4 sec d'increment par cycle et enfin une 
etape d'elongation terminale a 72°C pendant 7 min. 

Les produits d' amplification obtenus correspondant aux ADNc 

10 contenant respectivement les ORF3 et 4 et les ORF7 a 11 ont 6te sequences a Paide 
des amorces : S/SE/+/25363, S/SE/+/25835, S/SE/-/25494, S/SE/-/25875, 
S/MN/+/27839, S/MN/+/27409, S/MN/-/27836 S/MN/-/27799 et clones comme ci- 
dessus pour les autres ORF, pour donner les plasmides denommes SARS-SE et 
SARS-MN. L'ADN de ces clones a ete isote et sequence a Paide de ces memes, ; 

1 5 amorces et des amorces universelles Ml 3 sens et M 1 3 anti-sens. ^ 
La sequence de Tamplicon representant 1'ADNc de la region conte- « 
nant les ORF 3 et 4 (SEQ ID NO :7) de la souche de SARS-CoV issue du prelevement 
n°031589 comporte une difference nucleotidique par rapport a la sequence corres— 
pondante de Tisolat AY274119-Tor2. Cette mutation en position 25298 aboutit a une € 

20 modification de la sequence en acides amines de la proteine correspondante (ORF 3): 
en position 11, une arginine (AY2741 19-Tor2) est chang6e en glycine dans la souche 
de SARS-CoV issue du prelevement n°031589. En revanche, aucune mutation n'a ete 
identifiSe par rapport a la s6quence correspondante de Tisolat AY278741-Urbani. Les 
sequences des ORF 3 et 4 la souche de SARS-CoV issue du prelevement n°031589 

25 correspondent respectivement aux sequences SEQ ID NO :10 et 12 dans la liste de 

sequences jointe en annexe . . .. 

Le plasmide, denomm6 SARS-SE a et6 depose sous le n° 1-3126, le 
13 novembre 2003, auprds de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15 ; il contient 

30 l'ADNc correspondant a la region situ6e entre l'ORF-S et TORF-E et chevauchant 
l'ORF-E de la souche de SARS-CoV issue du prelevement repertorte sous le n° 
031589, telle que definie ci-dessus, laquelle region correspondant aux nucleotides des 
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positions 25110 a 26244 (SEQ ID NO :8), en reference a la sequence Genbank n° 

d'accesAY274119.3, 

La sequence de l'amplicon representant l'ADNc correspondant a la 
region contenant les ORF7 a ORF1 1 (SEQ ID NO :19) de la souche de SARS-CoV ' 
5 issue du prelevement n°031589 ne comporte pas de differences par rapport aux 
sequences correspondantes des isolats AY274119-Tor2 et AY278741-Urbani. Les 
sequences des ORF7 a 1 1 de la souche de SARS-CoV issue du prelevement n°031589 
correspondent respectivement aux sequences SEQ ID NO : 22, 24, 26, 28 et 30 dans la 
liste de sequences jointe en annexe. 
! o Le plasmide denomme SARS-MN a ete depose sous le n° 1-3 1 25, le 

13 novembre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15; il contient la 
sequence d'ADNc correspondant a la region situee entre l'ORF-M et l'ORF-N de la 
souche de SARS-CoV issue du prelevement repertorie sous le n° 03 1589 et pr61evee a 
15 Hanoi, telle que definie ci-dessus, laquelle sequence correspondant aux nucleotides 
des positions 26977 a 28218 (SEQ ID NO :20 ), en reference a la sequence Genbank 
n°d'accesAY274119.3. 

La sequence de l'amplicon representant l'ADNc correspondant a la 
region contenant les ORF7 a ORF11 (SEQ ID NO :19) de la souche de SARS-CoV 
20 issue du prelevement n°031589 ne comporte pas de differences par rapport aux 
sequences correspondantes des isolats AY274119-Tor2 et AY278741-Urbani. Les 
sequences des ORF7 a 1 1 de la souche de SARS-CoV issue du prelevement n°031589 
correspondent respectivement aux sequences SEQ ID NO : 22, 24, 26, 28 et 30 dans la 
liste de sequences jointe en annexe. 
25 2.4) ADNc codant pour la proteine N et incluant les ORF13 et ORF14 

L'ADNc a 6te synthetise et amplifie comme decrit ci-dessus pour les 
fragments Sa et Sb. De maniere plus precise, le melange rdactionnel contenant : 5 ul 
d'ARN, 5 ul d'H 2 0 ppi 4 |il de tampon de reverse transcriptase 5X, 2 ul de dNTP (5 
mM), 2 ul d'oligo 20T (5 uM), 0,5 ul de RNasin (40 UI/ul) et 1, 5 ul de AMV-RT (10 
30 UI/ul Promega) a et6 incub6 dans un thermocycleur dans les conditions suivantes : 45 
min a 42°C, 15 min a 55°C, 5 min a 95°C, puis il a ete maintenu a +4°C. 
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Une premiere amplification PCR a ete realisee avec la paire 
d'amorces S/N/F3/+/28023 et S/N/R3/-/29480. 

Le melange reactionnel comme ci-dessus pour 1'amplification des 
fragments SI et S2 a et6 incube dans un thermocycleur, dans les conditions suivantes : 
5 une etape initiale de denaturation a 94°C pendant 2 min a ete suivie de 40 cycles 
comprenant une 6tape de denaturation a 94°C pendant 20 sec, une 6tape d'hybridation 
a 55°C pendant 30 sec puis une etape d'elongatibn a 72°C pendant 1 min 30 sec avec 
10 sec d'elongation supplemental a chaque cycle, puis d'une etape finale 
d'elongation a 72°C pendant 5 min. 
10 L'amplicon obtenu a la premiere amplification PCR a subi une 

seconde etape d'amplification PCR (PCR nichee) avec la paires d'amorce. 
S/N/F4/+/28054 et S/N/R4/-/29430 dans des conditions identiques a celles de la 
premiere amplification. 

Le produit d'amplification obtenu correspondant a l'ADNc codant 
15 pour la prot6ine N de la souche de SARS-CoV issue du pavement n°03 1589a ete 
sequence a l'aide des amorces: S/N/F4/+/28054, S/N/R4/-/29430, S/N/+/28468, 
S/N/+/28918 et S/N/-/28607 et clone comme ci-dessus pour les autres ORF, pour 
dormer le plasmide denomme SARS-N. L'ADN de ces clones a ete isole et sequence a 
l'aide des amorces universelles Ml 3 sens et Ml 3 anti-sens, ainsi que des amorces 
20 S/N/+/28468, S/N/+/28918 et S/N/-/28607. 

La sequence de l'amplicon representant l'ADNc correspondant a 
l'ORF-N et incluant les ORF13 et ORF14 (SEQ ID NO :36) de la souche de SARS- 
CoV issue du pr616vement n°031589 ne comporte pas de differences par rapport aux 
sequences correspondantes des isolats AY274119.3-Tor2 et AY278741-Urbani. La 
25 sequence de la proteine N de la souche de SARS-CoV issue du prelevement n°03 1 5 89 
correspond a la s&mence SEQ ID NO : 37 dans la liste de sequences jointe en annexe. 

Les sequences des ORF13 et 14 de la souche de SARS-CoV issue du 
prelevement n°031589 correspondent respectivement aux sequences SEQ ID NO : 32 
et 34 dans la liste de sequences jointe en annexe. 
30 Le plasmide denomm6 SARS-N a et6 depos6 sous le n° 1-3048, le 5 

juin 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 25 rue 
du Docteur Roux, 75724 Paris Cedex 15 ; il contient l'ADNc codant pour la proteine 
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N de la souche de SARS-CoV issue du prelevement repertori6 sous le n° 031 589, telle 

que definie ci-dessus, laquelle sequence correspondant aux nucleotides des positions 

28054 a 29430 (SEQ ID NO :38), en reference h la sequence Genbank n° d'acces 

AY274119.3. 
5 2.5) extremit& 5' et 3' non-codantes 

a) extr&nite 5 ? non-codante (5'NC) 

ai) synthese de l'.ADNc 

Les ARN issus du prelevement 031589, extraits comme ci-dessus, 

ont 6te soumis a une transcription inverse dans les conditions suivantes : 
10 L'ARN (15 et 1'amorce S/L/-/443 (3 \xi a la concentration de 

5^im, ont ete incubes 10 min a 75°C. 

Ensuite, du Tampon de transcriptase inverse 5X (6 pi, 

INVITROGEN), des dNTP 10 mM (1 pi), du DTT 0,1M (3 p.1) ont ete ajoutes et le 

melange a ete incube h 50°C pendant 3 min. 
15 Enfin la transcriptase inverse (3 jLtl de Superscript®, INVITROGEN) 

a 6te ajoutee au melange precedent qui a et6 incube a 50°C pendant lh30 puis a 90 °C 

pendant 2 min. 

L'ADNc ainsi obtenu a ete purifie a Paide du kit QIAquick PCR 
purification (QIAGEN), selon les recommandations du fabricant. 

20 bi) Reaction a l^Tj^m^Txm^MP. (TdT) 

L'ADNc (10 est incube 2 min a 100°C, conserve dans la glace, 
puis sont ajoutes : H 2 0 (2,5 jil), tampon TdT 5X (4 jd, AMERSHAM), dATP 5mM 
(2 jil) et TdT (1,5 pi, AMERSHAM). Le melange ainsi obtenu est incube 45 min a 
37°C puis 2 min a 65°C. 

25 Le produit obtenu est amplifte par une premiere reaction PCR a Faide 

des amorces: S/L/-/225-206 et ancre 14T: 5'- 

AGATGAATTCGGTACCTTTTTTT^^ (SEQ ID NO :68). Les conditions 

de ramplification sont les suivantes : une etape initiale de denaturation a 94°C 
pendant 2 min est suivie de 10 cycles comprenant une etape de denaturation a 94°C 

30 pendant 10 sec, une 6tape d'hybridation a 45°C pendant 30 sec puis une etape 
d'elongation a 72°C pendant 30 sec puis de 30 cycles comprenant une etape de dena- 
turation a 94°C pendant 1 0 sec, une 6tape d'hybridation a 50°C pendant 30 sec puis 
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une etape d'elongation a 72°C pendant 30 sec, puis d'une etape finale d'elongation a 

72°C pendant 5 min. 

Le produit de la premiere amplification PCR a subi une seconde 
etape d' amplification a l'aide des amorces : S/L/-/204-185 et ancre 14T precitee dans 
5 des conditions identiques h celles de la premiere amplification. L'amplicon ainsi 
obtenu a ete purifie, sequence a l'aide de 1' amorce S/L/-/182-163 puis il a 6te clond 
comme ci-dessus pour les differentes ORF, pour donner le plasmide denomme SARS- 
5'NC. L'ADN de ce clone a ete isole et sequence a l'aide des amorces universelles 
Ml 3 sens et M13 anti-sens et de l'amorce S/L/-/182-163 pr6cit6e. 
IQ L'amplicon representant l'ADNc correspondant a l'extr6mite 5'NC 

de la souche de SARS-CoV issue du prelevement repertori6 sous le n° 031589 
correspond a la sequence SEQ ID NO : 72 dans la liste.de sequences jointe en annexe ; 
cette s6quence ne comporte pas de differences par rapport aux sequences 
correspondantes des isolats AY274119.3-Tor2 et AY278741-Urbani. 
j 5 Le plasmide denomme SARS-5'NC a ete depose sous le n° I- 3 124, 

le 7 novembre 2003, aupres de la Collection Nationale de Cultures de 
Microorganismes, 25 rue du Docteur Roux, 75724 Paris Cedex 15; il contient 
l'ADNc correspondant a l'extremite 5'non codante du genome de la souche de SARS- 
CoV issue du prelevement repertorie sous le n° 031589, telle que definie ci-dessus, 
20 laquelle sequence correspondant aux nucleotides des positions 1 a 204 (SEQ ID 
NO :39 ), en rdference a la sequence Genbank n° d'acces AY2741 19.3. 
b) extremite 3'non-codante (3'NC) 
ai) synthese de l'ADNc 

Les ARN issus du prelevement 031589, extraits comme ci-dessus, 
25 ont ete soumis a une transcription inverse, selon le protocole suivant : le melange 
r6actionnel contenant : ARN (5 \xl), H 2 0 (5 n0, tampon de transcriptase inverse 5X (4 
ul), dNTP 5 mM (2 |il), Oligo 20T 5uM (2 RNasin 40 U/ \i\ (0,5 jal) et RT-AMV 
10 UI/ ul (1,5 pi, PROMEGA) a ete incub6 dans un thermocycleur, dans les conditi- 
ons suivantes : 45 min a 42°C, 15 min a 55°C, 5 min a 95°C, puis il a ete maintenu a 
30 +4°C. 

L'ADNc obtenu a ete amplifie par une premiere rdaction PCR a 
l'aide des amorces S/N/+/28468-28487 et ancre 14T precitee. Les conditions de 
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Famplification sont les suivantes : une etape initiale de denaturation k 94°C pendant 2 
min est suivie de 10 cycles comprenant une etape de denaturation a 94°C pendant 20 
sec, une etape d'hybridation a 45°C pendant 30 sec puis une etape d'elongation a 
72°C pendant 50 sec puis de 30 cycles comprenant une etape de denaturation a 94°C 
5 pendant 20 sec, une etape d'hybridation a 50°C pendant 30 sec puis une etape 
d'61ongation a 72°C pendant 50 sec, puis d'une etape finale d'elongation a 72°C 
pendant 5 min. 

Le produit de la premiere amplification PCR a subi une seconde 
etape d'amplification a l'aide des amorces S/N/+/28933-28952 et ancre 14T precitee, 

10 dans des conditions identiques a celles de la premiere amplification. L'amplicon ainsi 
obtenu a et6 purifie, sequence a l'aide de 1'amorce S/N/+/29257-29278 et clone 
comme ci-dessus pour les differentes ORF, pour donner le plasmide denomme SARS- 
3'NC. L/ADN de ce clone a ete isole et sequence a Faide des amorces universelles 
M13 sens et M13 anti-sens et de 1'amorce S/N/+/29257-29278 precitee. 

15 L'amplicon representant 1'ADNc correspondant a l'extremite 3'NC 

de la souche de SARS-CoV issue du prelevement repertorie sous le n° 031589 corres- 
pond a la sequence SEQ ID NO :73 dans la liste de sequences jointe en annexe ; cette 
sequence ne comporte pas de differences par rapport aux sequences correspondantes 
des isolats AY2741 19.3-Tor2 et AY278741~UrbanL 

20 Le plasmide denomme SARS-3'NC a ete dSposS sous le n° 1-3123 le 

7 novembre 2003, aupres de la Collection Nationale de Cultures de Microorganismes, 
25 rue du Docteur Roux, 75724 Paris Cedex 15. ; il contient la sequence d'ADNc 
correspondant a l'extr6mit<§ 3'non codante du genome de la souche de SARS-CoV 
issue du prelevement repertorie sous le n° 031589, telle que definie ci-dessus, laquelle 

25 sequence correspondant a celle situ6e entre le nucleotide en position 28933 a 29727 
(SEQ ID NO :40), en r6f6rence a la sequence Genbank n° d'accSs AY274 119.3, se 
termine par une serie de nucleotides a. 
2.6)ORFlaet ORFlb 

L'amplifi cation de la region 5 1 contenant les ORFla et ORFlb du 

30 g&iome du SARS-CoV issu du pr61evement 031589 a ete realis6e en pratiquant des 
reactions de RT-PCR suivies de PCR nich6es selon les memes principes que ceux 
prec6demment decrits pour les autres ORF. Les fragments amplifies sont chevau- 
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chants sur plusieurs dizaines de bases, permettant ainsi la reconstruction informatique 
de la sequence complete de cette partie du genome. En moyenne, les fragments ampli- 
fies sont de deux kilobases. 

14 fragments chevauchants d6nommes LO a LI 2 ont ainsi 6te 
5 amplifies a l'aide des amorces suivantes : 



Tableau II : Amorces utilisees pour V amplification 
de la region 5'(ORFla et ORFlb) 



REGION 
AMPLIFIEE 
ET 

SEQUENCEE 
(ne tient pas 
compte des 
amorces) 


Amorce sens 
RT-PCR 


Amorce antisens 
RT-PCR 


Amorce sens 
PCR nichee 


Amorce 
antisens PCR 
nichee 


LO 
50-480 


S/L0/F1/+30 


S/L0/R1/-481 






L1 

231-2240 


S/L1/F1/+147 


S/L1/R1/-2336 


S/L1/F2/+211 


S/L1/R2/-2241 


L2 

2156-4167 


S/L2/F1/+2033 


S/L2/R1/-4192 


S/L2/F2/+2136 


S/L2/R2/-4168 


L3 

j 3913-5324 


S/L3bis/F1/+3850 


S/L3bis/R1/-5365 


S/L3bis/F2/+3892 


S/L3bis/R2/-5325 


L4b 
4952-6023 


S/L4b/F1/+4878 


S/L4b/R1/-6061 


S/L4b/F2/+4932 


S/L4b/R2/-6024 


L4 

5325-7318 


S/L4/F1/+5272 


S/L4/R1/-7392 


S/L4/F2/+5305 


S7L4/R2/-7323 


L5 

7296-9156 


S/L5/F1/+7111 


S/L5/R1/-9253 


S/L5/F2/+7275 


S/L5/R2/-9157 


L6 

9053-11066 


S/L6/F1/+8975 


S/L6/R1M1151 


S/L6/F2/+9032 


S/L6/R2M1067 


L7 

10928-12962 


S/L7/F1/+10883 


S/L7/R1/-13050 


S/L7/F2/+10928 


S/L7/R2/-12963 


L8 

12835-14834 


S/L8/F1/+12690 


S/L8/R1/-14857 


S/L8/F2/+12815 


S/L8/R2/-14835 


L9 

14765-16624 


S/L9/F1/+14688 


S/L9/R1M6678 


S/L9/F2/+14745 


S/L9/R2/-16625 


L10 
16534-18570 


S/L10/F1/+16451 


S/L10/R1M8594 


S/L10/F2/+16514 


S/L10/R2/-18571 


L11 
18521-20582 


S/L11/F1/+18441 


S/L11/R1/-20612 


S/L11/F2/+18500 


S/L11/R2/-20583 


L12 

20338-22205. 


S/L12/F1/+20279 


S/L12/R1/-22229 


S/L12/F2/+20319 


S/L12/R2/-22206 



Tous les fragments ont et6 amplifies dans les conditions suivantes, 



excepts le fragment L0 qui a &e amplifie comme decrit ci-dessus pour l'ORF-M : 
10 - RT-PCR : 30 min a 42°C, 15 min a 55°C, 2 min a 94°C, puis 

TADNc obtenu est amplifie dans les conditions suivantes : 40 cycles comprenant : une 
etape de denaturation a 94°C pendant 15 sec, une etape d'hybridation a 58°C pendant 
30 sec puis une etape d'elongation a 68°C pendant 1 min 30 sec, avec 5 sec 
d'&ongation supplemental h chaque cycle, puis une etape finale d'elongation a 68°C 
15 pendant 7 min. 
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- PCR nich6e : une etape initiate de denaturation a 94°C pendant 2 
min est suivie de 35 cycles comprenant : une etape de denaturation a 94°C pendant 15 
sec, vine etape d'hybridation a 60°C pendant 30 sec puis une etape d'elongation a 
72°C pendant 1 min 30 sec, avec 5 sec d'elongation supplemental a chaque cycle, 
puis une etape finale d'elongation a 72°C pendant 7 min. 

Les produits d'amplifications ont ete sequences a l'aide des amorces 
definies dans le Tableau III ci-apres : 

Tableau III : Amorces utilisees pour le sequencage 
de la region 5» (ORFla et ORFlb) 



Noms 



S/L3/+/4932 
S/L4/+/6401 
S/L4/+/6964 
S/L4/-/6817 
S/L5/-77633 
S/L5/-/8127 
S/L5/-/8633 
S/L5/+/7839 
S/L5/+/8785 
S/L5/+/8255 
S/L6/-/9422 
S/L6/-/9966 
S/L6/-/10542 
S/L6/+/10677 
S/L6/+/10106 
S/L6/+/9571 
S/L7/-/11271 
S/L7/-/11801 
S/L7/-/12383 
S/L7/+/12640 
S/L7/+/12088 
S/L7/+/11551 
S/L8/-13160 
S/L8/-/13704 
S/L8/-14284 
S/L8/+/14453 
S/L8/+/13968 
S/L8/+/13401 
S/L9/-15098 
S/L9/-15677 
S/L9/-16247 
S/L9/+16323 
S/L9/+15858 
S/L9/+15288 
S/L10/-16914 
S/L10/-17466 
S/L10/-18022 
S/L10/+18245 
S/L10/+17663 



S6quences (SEQ ID NO : 76 a 139) 



5'-CCACACACAGCTTGTGGATA-3' 

5'-CCGAAGTTGTAGGCAATGTC-3' 

5'-TTTGGTGCTCCTTCTTATTG-3* 

5'-CCGGCATCCAAACATAATTT-3' 

5'-TGGTCAGTAGGGTTGATTGG-3* 

5'-CATCCTTTGTGTCAACATCG-3' 

S'-GTCACGAGIGACACCATCCT-S' 

5'-ATGCGACGAGTCTGCTTCTA-3' 

5--TTCATAGTGCCTGGCTTACC-3' 

5'-ATCTTGGCGCATGTATTGAC-3' 

5'-TGCATTAGCAGCAACAACAT-3' 

5'-TCTGCAGAACAGCAGAAGTG-3" 

5'-CCTGTGCAGTTTGTCTGTCA-3* 

5'-CCTTGTGGCAATGAAGTACA-3' 

5'-ATGTCATTTGCACAGCAGAA-3' 

5'-CTTCAATGGTTTGCCATGTT-3* 

5'-TGCGAGCTGTCATGAGAATA-3' 

5'-AACCGAGAGCAGTACCACAG-3" 

5'-TTTGGCTGCTGTAGTCAATG-3' 

5'-CTACGACAGATGTCCTGTGC-3' 

5'-GAGCAGGCTGTAGCTAATGG-3' 

5'-TTAGGCTATTGTTGCTGCTG-3' 

5'-CAGACAACATGAAGCACCAC-3* 

5'-CGCTGACGTGATATATGTGG-3' 

5-TGCACAATGAAGGATACACC-3' 

5'-ACATAGCTCGCGTCTCAGTT-3' 

5'-GG CATTGTAGGCGTACTG AC-3' 

5'-GTTTGCGGTGTAAGTGCAG-3' 

5'-TAGTGGCGGCTATTGACTTC-3' 

5'-CTAAACCTTGAGCCGCATAG-3' 

5'-CATGGTCATAGCAGCACTTG-3' 

5-CCAGGTTGTGATGTCACTGAT-3' 

5'-CCTTACCCAGATCCATCAAG-3' 

S'-CGCAAACATAACACTTGCTG-S' 

5'-AGTGTTG GGTACAAGCCAGT-3' 

S'-GTTCCAAGGAACATGTCTGG-S' 

5-AGGTGCCTGTGTAGGATGAA-3' 

5-GGGCTGTCATGCAACTAGAG-3' 

5'-TCTTACACGCAATCCTGCTT-3' 
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S/L10/+17061 
S/L11/-/18877 
S/L11/-19396 
S/L11/-20002 
S/L11/+20245 
S/L11/+/19611 
S/L11/+/19021 
SARS/L1/F3/+800 
SARS/L1/F4/+1391 
SARS/L1/F5/+1925 
SARS/L1/R3/-1674 
SARS/L1/R4/-1107 
SARS/L1/R5/-520 
SARS/L2/F3/+2664 
SARS/L2/F4/+3232 
SARS/L2/F5/+3746 
SARS/L2/R3/-3579 
SARS/L2/R4/-2991 
SARS/L2/R5/-2529 
SARS/L3/F3/+4708 
SARS/L3/F4/+5305 
SARS/L3/F5/+5822 
SARS/L3/R3/-5610 
SARS/L3/R4/-4988 
SARS/L3/R5/-4437 



5-TACCCATCTG CTCGCATAGT-3' 

5'-GCAAGCAGAATTAACCCTCA-3' 

5'-AGCACCACCTAAATTGCATC-3' 

5'-TGGTCCCTTTGAAGGTGTTA-3' 

5-TCGAACACATCGTTTATGGA-3' 

S'-GAAGCACCTGyTTCCATCAT-S' 

5-ACGATGCTCAGCCATGTAGT-3' 

5-GAGGTGCAGTCACTCGCTAT-3' 

5'-CAGAGATTGGACCTGAGCAT-3' 

5'-CAGCAAACCACTCAATTCCT-3' 

5'-AAATGATGGCAACCTCTTCA-3' 

5'-CACGTGGTTGAATGACTTTG-3' 

5'-ATTTCTGCAACCAGCTCAAC-3' 

5'-CGCATTGTCTCCTGGTTTAC-3' 

5'-GAGATTGAGCCAGAACCAGA-3' 

5'-ATGAGCAGGTTGTCATGGAT-3' 

5'-CTGCCTTAAGAAGCTGGATG-3' 

5'-TTTCTTCACCAGCATCATCA-3' 

5'-CACCGTTCTTGAGAACAACC-3' 

5'-TCTTTGGCTGGCTCTTACAG-3' 

ff-GCTGGTGATGCTGCTAACTT-S' 

5*-CCATCAAGCCTGTGTCGTAT-3' 

5-CAGGTGGTGCAGACATCATA-3' 

5'-AACATCAGCACCATCCAAGT-3' 

5'-ATCGGACACCATAGTCAACG-3' 



Les sequences des fragments LO a L12 de la souche de SARS-CoV 
issue du prelevement repertorie sous le n° 031589, correspondent respectivement aux 
sequences SEQ ID NO :41 a SEQ ID NO :54 dans la liste de sequences jointe en 
annexe. Parmi ces sequences, seule celle correspondant aux fragments L5 comporte 
une difference nucleotidique par rapport k la sequence correspondante de l'isolat 
AY278741-Urbani. Cette mutation t/c en position 7919 aboutit a une modification de 
la sequence en acides amines de la proteine correspondante, codee par l'ORF la: en 
position 2552, une valine (codon gtt ; AY278741) est changee en alanine (codon get) 
dans la souche de SARS-CoV 031589. En revanche, aucune mutation n'a ete identifiee 
par rapport a la sequence correspondante de l'isolat AY274119.3-Urbani. Les autres 
fragments ne presentent pas de differences par rapport aux s6quences correspondantes 
des isolats Tor2 et Urbani. 
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Exemple 2 : Production et purification de proteines N et S recombinantes de la 
souche de SARS-CoV issue du prelevement repertorie sous le numero 031589 

La proteine entiere et deux fragments polypeptidiques de la proline 
S de la souche de SARS-CoV issue du prelevement repertorie sous le numero 031589 
5 ont ete produites chez E. coli, sous forme de proteines de fusion comprenant une 
etiquette polyhistidine N-ou C-terminale. Dans les deux polypeptides S, les sequences 
hydrophobes N et C-terminales de la proteine S (peptide signal : positions 1 a 13 et 
h&ice transmembranaire : positions 1196 a 1218) ont ete deletees alors que Fhelice P 
(positions 565 a 687) et les deux motifs de type coiled-coils (positions 895 a 980 et 

10 1 155 a 1 186) de la proteine S ont ete preserves. Ces deux polypeptides sont constitues 
par : un fragment long (S L ) correspondant aux positions 14 a 1 193 de la sequence en 
acides amines de la proteine S et un fragment court (Sc) correspondant aux positions 
475 a 1 1 93 de la sequence en acides amines de la proteine S. 
1) Clonage des ADNc N, S L et Sc dans les vecteurs depression pIVEX2.3 et 

15 pIVEX2.4 

Les ADNc correspondant a la proteine N et aux fragments Sl et Sc 
ont ete amplifies par PCR dans des conditions standard, a l'aide de PADN polymerase 
Platinium Pfx® (INVITROGEN). Les plasmides SRAS-N et SRAS-S ont ete utilises 
comme matrice et les oligonucleotides suivants comme amorces : 

20 5 '^CCATATGTCTGATAATGG ACCCCAATCAAAC-3 9 (N sens, SEQ ID NO :55) 

5 '-CCCCCGGGTGCCTGAGTTGAATCAGCAGAAGC-3 ' (N antisens, SEQ ID NO :56) 
5 *-CCCATATGAGTG ACCTTG ACCGGTGCACCAC-3 ' (S c sens, SEQ ID NO :57) 
5'.CCCMATCAAACCTTGCACCCCACCTGCTC-3 5 (S L sens, SEQ ID NO :58) 
5 '-CCCCCGGGTTTAATATATTGCTCATATTTTCCC-3 ' (S c et S L antisens, SEQ ID 

25 NO :59). 

Les amorces sens introduisent un site Ndel (souligne) alors que les 
amorces antisens introduisent un site Xmal pu Smal (souligne). Les 3 produits 
d'amplification on ete purifies sur colonne (kit QIAquickPCR Purification, QIAGEN) 
et clon6s dans un vecteur approprie. L'ADN plasmidique purifie des 3 constructions 
30 (kit QIAFilter Midi Plasmid, QIAGEN) a 6t6 v&rifie par sequen9age et dig6r6 par les 
enzymes Ndel et XmaL Les 3 fragments correspondants aux ADNc N, S L et Sc ont ete 
purifies sur gel d' agarose puis inseres dans les plasmides pIVEX2.3MCS (etiquette 
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polyhistidine C-terminale) et pIVEX2.4d (Etiquette polyhistidine N-tenninale) preala- 
blement digeres par les memes enzymes. Apres verification des constructions, les 6 
vecteurs ^expressions ainsi obtenus (pIV2.3N, pIV2.3S c , plV2.3S L , pIV2.4N, 
pIV2.4Sc egalement denomme pIV2.4S,, P rV2.4S L ) ont ete ensuite utilises, d'une part 
5 pour tester l'expression des proteines in-vitro, et d'autre part pour transformer la 
soucbe bact6rienne BL21(DE3)pDIA17 (NOVAGEN). Ces constructions cedent pour 
des proteines dont la masse moleculaire attendue est la suivante : pIV2.3N (47174 
Da), pIV2.3Sc (82897 Da), pIV2.3S L (132056 Da), pIV2.4N (48996 Da), pIV2.4S, 
(81076 Da) et pF/2.4S L (l 33877 Da). 
1 0 2) Analyse de l'expression des proteines recombinantes in-vitro et in vivo 

L'expression de proteines recombinantes h partir des 6 vecteurs 
recombinants a ete testee, dans un premier temps, dans un systeme in-vitro (RTS100, 
Roche). Les proteines produites in vitro, apres une incubation des vecteurs recombi- 
nants pIVEX, 4h a 30°C, dans le systeme RTS100, ont ete analysees par westem-blot 
1 5 h l'aide d'un anticorps anti-(his) 6 coupl6 a la peroxydase. Le resultat d' expression in- 
vitro (Figure 1) montre que seule la proteine N est exprimee en quantites importantes, 
cela quelle que soit la position, N- ou C-terminale, de l'6tiquette polyhistidine. Dans 
une seconde etape, l'expression des proteines NetSa ete test6e in-vivo a 30°C dans 
du milieu LB, en presence ou en l'absence d'inducteur (IPTG ImM). La proteine N 
20 est tres bien produite dans ce systeme bacterien (Figure 2) et se retrouve principale- 
ment dans une fraction soluble apres lyse des bacteries. En revanche, la version longue 
de S (S L ) est tres peu produite et complement insoluble (Figure 3). La version courte 
(S c ) presente egalement une tres faible solubility mais un taux d'expression beaucoup 
plus eleve que celui de la version longue. Par ailleurs, la construction S c fusionnee a 
25 une Etiquette polyhistidine en position C-terminale presente une taille plus faible que 
celle attendue. Une experience, d'immunodetection ayec un anticorps anti-poly- 
histidine a montre que cette construction etait incomplete. En conclusion, les deux 
constructions, pF/2.3N et pIV2.4Si, exprimant respectivement la proteine N entiere 
fusionnee a l'etiquette polyhistidine en C-terminal et la proteine S courte fusionnee h 
30 l'etiquette polyhistidine en N-terminal, ont 6te retenues pour produire les deux 
proteines en grande quantite afm de les purifier. 
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3) Analyse de F activity antigenique des proteines recombinantes 

L'activite antigenique des prot6ines N, S L et Sc a ete testee par 
western-blot, a Taide de deux 6chantillons de serum, provenant d'un raeme patient 
infecte par le SARS-CoV, preleves 8 jours (M12) et 29 jours-(M13) aprds le debut des 
5 symptomes du SRAS. Le protocole experimental est comme decrit a Fexemple 3. Les 
resultats illustres par la figure 4 montrent (i) la seroconversion du patient, et (ii) que la 
proteine N possede une plus forte reactivity antigenique que la proteine S courte. 

4) Purification de la proteine N k partir de pIV2.3N 

Plusieurs experiences de purification de la proteine N, produite a 

10 partir du vecteur pIV2.3N, ont ete realisees selon le protocole suivant. Les bact&ies 
BL21(DE3)pDIA17, transform6es par le vecteur d' expression pIV2.3N, ont ete culti- 
v6es a 30°C dans 1 litre de milieu de culture contenant 0,1 mg/ml d'ampicilline, et 
induites par 1 mM IPTG quand la densite cellulaire, equivalente a A6oo = 0,8, est 
atteinte (environ 3 heures). Apres 2 heures de culture en presence d'inducteur, les 

1 5 cellules ont ete recuperees par centrifugation (1 0 min a 5000 rpm), remises en suspen- 
sion dans le tampon de lyse (50 mM NaH 2 P04, NaCl 0,3 M, 20 mM imidazole, pH 8 
contenant le melange d'inhibiteurs de proteases Complete® , Roche), et lysees par la 
presse de French (12000 psi)* Apres centrifugation du lysat bacterien (15 min a 12000 
rpm), le surnageant (50 ml) a ete depos6 a un debit de lml/min sur une colonne (15 

20 ml) de chelation metallique (Ni-NTA superflow, Qiagen), equilibree par le tampon de 
lyse. Apr6s lavage de la colonne par 200 ml de tampon de lyse, la proteine N a ete 
eluSe par un gradient d'imidazole (20 — >250 mM) en 10 volumes de colonne. Les 
fractions contenant la proline N ont ete rassemblees et analysees par electrophorese 
en gel de polyacrylamide en conditions denaturantes puis coloration au bleu de 

25 Coomassie. Les resultats illustr6s par la figure 5 montrent que le protocole employ^ 
permet de purifier la proteine N avec une homogeneite tres satisfaisante (95%) et un 
rendement moyen de 15 mg de proteine par litre de culture. 

5) Purification de la proline S c £ partir de pIV2.4Sc(pIV2.4S!) 

Le protocole suivi pour purifier la proteine S courte est tres different 
30 de celui decrit ci-dessus car la prot6ine est fortement aggregee dans le systeme bacte- 
rien (corps d'inclusion). Les bacteries BL21(DE3)pDIA17, transformees par le 
vecteur d'expression pIV2.4Sj ont ete cultiv6es a 30°C dans 1 litre de milieu de 
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culture contenant 0,1 mg/ml d'ampicilline, et induites par 1 mM IPTG quand la 
densite cellulaire, equivalente a A 600 = 0,8, est atteinte (environ 3 heures). Apres 2 
heures de culture en presence d'inducteur, les cellules ont ete recuperees par centrifu- 
gation (10 min a 5000 rpm), remises en suspension dans le tampon de lyse (0,1 M 

5 Tris-HCl, EDTA 1 mM, pH 7,5), et lysees par la presse de French (1200 psi). Apres 
centrifugation du lysat bact6rien (15 min a 12000 rpm), le culot a ete remis en suspen- 
sion dans 25 ml de tampon de lyse contenant 2% Triton XI 00 et 10 mM P- 
mercaptoethanol, puis centrifug6 pendant 20 min a 12000 rpm. Le culot a et6 remis en 
suspension dans un tampon Tris-HCl 10 mM contenant 7 M uree, et mis en agitation 
10 douce pendant 30 min a temperature ambiante. Ce dernier lavage des corps 
d'inclusion avec 7 M ur6e est necessaire pour eliminer la plupart des proteines 
membranaires d'E. coli qui co-sedimentent avec la proteine S c aggreg6e. Apres une 
demiere centrifugation pendant 20 min a 12000 rpm, le culot final est remis en 
suspension dans le tampon Tris-HCl 10 mM. V analyse electrophor&ique de cette 

15 preparation (Figure 6) montre que la proline S courte peut etre purifiee avec une 
homogeneite satisfaisante (environ 90%) a partir des corps d'inclusion (extrait 
insoluble). 

Exemple 3 : Immunodominance de la proteine N 

La rSactivite des anticorps pr6sents dans le s6rum des patients 
20 atteints de pneumopathie atypique causte par le coronavirus associe au SRAS (SARS- 
CoV), vis-a-vis des differentes prot6ines de ce virus, a ete analys6e par western-blot 
dans les conditions d^crites ci-apres. 
1) Materiel 

fi\ Ivsat de cellules infect6es par le SARS-CoV 

25 Des cellules Vero E6 (2x1 0 6 ) ont ete infectees par le SARS-CoV 

(isolat repertorie sous le num6ro FFM/MA104) a une multiplicit6 d'infection (M.O.I.) 
de 10" 1 ou 10" 2 puis incubees dans du milieu DMEM contenant 2% de SVF, a 35°C 
dans une atmosphere contenant 5% de CO2. 48 heures plus tard, le tapis cellulaire a 
ete lave avec du PBS puis lyse avec 500 ul de tampon de depot prepare selon Laemmli 

30 et contenant du 13-mercapto6thanol. Les echantillons ont ensuite ete bouillis 10 
minutes puis soniqu^s 3 fois 20 secondes. 
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b) anticorps 

bi) s^rum de patient atteint^fe 

Le serum reference au Centre National de Reference des virus 
influenzae (Region-Nord) sous le N° 20033168 est celui d'un patient fran9ais atteint 
5 d'une pneumopathie atypique causae par le SARS-CoV prelev6 au jour 38 apres le 
debut des symptdmes ; le diagnostic d'infection par le SARS-CoV a ete realise par 
RT-PCR nichee et PCR quantitative. 
b2> senims.pol^d^ 
proteine S 

10 Les serums sont ceux produits a partir des proteines recombinantes N 

et S c (exemple 2), selon le protocole d'immunisation decrit a Texemple 4 ; il s'agit du 
s6rum du lapin PI 3097 (serum anti-N) et du serum du lapin PI 1 1 35 (serum anti-S). 
2) Methode 

20 id de lysat de cellules infectees par le SARS-CoV a des M.OJL de 
15 10" 1 et 10* 2 et, k titre de controle, 20 jil d'un lysat de cellules, non infectees (mock) ont 
ete separes sur un gel SDS a 10% de polyacrylamide puis transferes sur une 
membrane de nitrocellulose. Apres blocage dans une solution de PBS/lait 5%/Tween 
0,1% et lavage en PBS/Tween 0,1%, cette membrane a ete hybridee pendant une nuit 
a 4°C avec : (i) l'immun-sSrum N° 20033168 dilue au 1/300, 1/1000 et 1/3000 dans le 
20 tampon PBS/BSA 1%/Tween 0,1%, (ii) le s<§rum du lapin PI 3097 (serum anti-N) 
dilu6 au 1/50000 dans le meme tampon et (iii) le serum du lapin PI 1 135 (serum anti- 
S) dilue au 1/10000 dans le m6me tampon- Apres lavage en PBS/Tween, une hybrida- 
tion secondaire a 6t6 realisee a Taide, soit d'anticorps polyclonaux de mouton diriges 
contre les chaines lourdes et legeres des immunoglobulines G humaines et couples a la 
25 peroxidase (NA933V, Amersham), soit d'anticorps polyclonaux d'ane dirig6s contre 
les chaines lourdes et 16geres des immunoglobulines G de lapin et couples h la 
peroxidase (NA934V, Amersham). Les anticorps fixes ont ete reveles a Taide du kit 
ECL+ (Amersham) et de films d'autoradiographie Hyperfilm MP (Amersham). Une 
echelle de masse molSculaire (kDa) est portee sur la figure. 

30 
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3) Resultats 

La figure 7 montre que trois polypeptides de masse moleculaire appa- 
rente 35, 55 et 200 kDa sont detectes specifiquement dans les extraits de cellules 
infectees par le SARS-CoV. 
5 Afin d'identifier ces polypeptides, deux autres immunoempreintes 

(figure 8) ont ete realisees sur les memes echantillons et dans les memes conditions 
avec des anticorps polyclonaux de lapins specifique de la nucleoproteine N (lapin 
PI 3097, figure 8A) et de la proteine de spicule S (lapin PI 1135, figure 8B) Cette 
experience montre que le polypeptide de 200 kDa correspond a la glycoprotein de 
1 0 spicule S du S ARS-Co V, que le polypeptide de 55 kDa correspond a la nucleoproteine 
N tandis que le polypeptide de 35 kDa represente vraisemblablement une forme 
tronquee ou degradee de la N. 

Les donnees presentees dans la figure 7 montrent done que le serum 
20033168 reagit fortement avec la N et beaucoup plus faiblement avec la S du SARS- 
15 CoV, puisque les polypeptides de 35 et 55 kDa sont reveles sous la forme de bandes 
intenses pour des dilutions de 1/300, 1/1000 et 1/3000 de l'immunserum alors que le 
polypeptide de 200 kDa n'est que faiblement revele pour une dilution de 1/300. On 
peut noter egalement qu'aucun autre polypeptide du SARS-CoV n'est d6tecte pour des 
dilutions superieures au 1/300 du serum 20033168. 
20 Cette experience indique que la reponse en anticorps specifique de 

la N du SARS-CoV domine les reponses en anticorps specifiques des autres poly- 
peptides du SARS-CoV et en particulier la reponse en anticorps dirigee contre la 
glycoproteine S. Elle indique une immunodominance de la nucleoprot6ine N lors des 
infections humaines par le SARS-CoV. 
25 Exempjg 4 : Preparation d' anticorps polyclonaux monospecifiques diriges contre 
les proteines N et S du coronavirus associ6 au SRAS (SARS-CoV) 
1) Materiel et methode 

Trois lapins (PI 3097, P13081, P13031) ont 6te immunises avec le 
polypeptide recombinant purifie correspondant a l'integralite de la nucleoproteine (N), 
30 pr6par6 selon le protocole decrit a Pexemple 2. Apres une premiere injection de 0,35 
mg par lapin de proteine emulsionnee en adjuvant complet de Freund (voie intra- 
dermique), les animaux ont re9us 3 injections de rappel a 3 puis 4 semaines 
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d'intervalle, de 0,35 mg de prot&ne recombinante emulsionnee en adjuvant incomplet 
de Freund. 

Trois lapins (PI 1135, P13042, P14001) ont ete immunis6s avec le 
polypeptide recombinant correspondant au fragment court de la proteine S (S c ), 
5 produit comme decrit a Fexemple 2. Comme ce polypeptide est retrouve principale- 
ment sous la forme de corps d'inclusion dans le cytoplasme bact6rien, les animaux ont 
re?us 4 injections intra-deimiques k 3-4 semaines d'intervalle d'une preparation de 
corps d'inclusion correspondant a 0,5 mg de proline recombinante emulsionnee en 
adjuvant incomplet de Freund. Les 3 premieres injections ont ete r6alisees avec une 
10 preparation de corps d'inclusion prepares selon le protocole decrit a l'exemple 2, 
tandis que la quatrieme injection a ete realisee avec une preparation de coips 
d'inclusion qui ont ete prepares selon le protocole decrit a Fexemple 2 puis purifies 
sur gradient de saccharose et laves en 2 % Triton XI 00. 

Pour chaque lapin, un serum pre-immun (p.i.) a ete prepare avant la 
15 premiere immunisation et un immun-serum (LS.) 5 semaines apres la quatrieme 
immunisation. 

Dans un premier temps, la reactivite des serums a 6te analyst par 
test ELISA vis a vis de preparations de proteines recombinantes semblables a celles 
utilisees pour les immunisations ; les tests ELISA ont ete realises selon le protocole et 
20 avec les reactifs tels que decrits a l'exemple 6. 

Dans un deuxieme temps, la reactivite des serums a ete analysee en 
rSalisant une immunoempreinte (western blot) d'un lysat de cellules infectees par le 
SARS-CoV, en suivant le protocole tel que decrit a l'exemple 3. 
2) Resultats 

25 Les tests ELISA (figure 9) d£montrent que les preparations de 

proteine N recombinante et de corps d'inclusion du fragment court de la proteine S 
(S c ) sont immunogdnes chez l'animal et que le titre des serums immuns est eleve (plus 
de 1/25000). 

L'immunoempreinte (figure 8) montre que le s6rum immun du lapin 
30 P13097 reconnait deux polypeptides presents dans les lysats de cellules infectees par 
le SARS-CoV : un polypeptide dont la masse moleculaire apparente (50-55 kDa selon 
les experiences) est compatible avec celle de la nucl6oprot6ine N (422 residus, masse 
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moleculaire predite de 46 kDa) et un polypeptide de 35 kDa, qui represente vraisem- 
blablement une forme tronqu6e ou degradSe de la N. 

Cette experience montre egalement que le serum du lapin PI 1135 
reconnait principalement un polypeptide dont la masse moleculaire apparente (180- 
5 220 kDa selon les experiences) est compatible avec une forme glycosylee de la S 
(1255 residus, chaine polypeptidique non glycosylee de 139 kDa), ainsi que des poly- 
peptides plus 16gers, qui reprdsentent vraisemblablement des formes tronqu^es et/ou 
non glycosylees de la S, 

En conclusion, 1* ensemble de ces experiences d6montrent que des 
10 polypeptides recombinants exprimes chez E. coli et correspondant aux prot6ines N et 
S du SARS-CoV permettent d'induire chez 1 'animal des anticorps polyclonaux 
capables de reconnaltre les formes natives de ces prot ernes. 

Exemple 5 : Preparation d'anticorps polyclonaux monospeciflques dirig£s contre 
les proteines M et E du coronavirus associe au SRAS (SARS-CoV) 
1 5 1) Analyse de la structure des proteines M et E 

a) ProteineE 

La structure de la proteine E du SARS-CoV (76 acides amines) a ete 
analysee in silico , a l'aide de differents logiciels comme signalP vl.l, NetNGlyc 1.0, 
THMM 1.0 et 2.0 (Krogh et al., 2001, J. Mol. Biol., 305(3):567-580) ou encore 

20 TOPPRED (von Heijne, 1992, J. Mol. Biol. 225, 487-494). L' analyse montre que ce 
polypeptide non glycosyle est une prot6ine membranaire de type 1, contenant une 
seule helice transmembranaire (aa 12-34 d'apres THMM), et dont la plus grande partie 
du domaine hydrophile (42 residus) est localisSe a r extremity C-terminale et vraisem- 
blablement a Tinterieur de la particule virale (endodomaine). On peut noter une inver- 

25 sion dans la topologie predite par les versions 1 .0 (N-ter est externe) et 2.0 (N-ter est 
interne) du logiciel THMM,.mais que d'autres algorithmes, notamment TOPPRED et 
THUMBUP (Zhou et Zhou, 2003, Protein Science 12:1547-1555) confirment une 
localisation externe de 1'extremiteN-terminale de E. 
V) Proteine M 

30 Une analyse similaire r6alisee sur la proteine M du SARS-CoV (221 

acides amines) montre que ce polypeptide ne possede pas de peptide signal (d'apres le 
logiciel signalP vl.l) mais trois domaines transmembranaires (residus 15-37, 50-72, 
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77-99 d'apres THMM2.0) et un grand domaine hydrophile (aa 100-221) localise a 
l'int^rieur de la particule virale (endodomaine). Elle est vraisemblablement glycosyl6e 
sur l'asparagine en position 4 (d'apres NetNGlyc 1 .0), 

Ainsi, en accord avec les donnees experimentales connues pour les 
5 autres coronavirus, il est remarquable que les deux prolines M et E presentent des 
endodomaines correspondant a la majeure partie des polypeptides et des ectodomaines 

de tres petite taille. 

- Tectodomaine de E correspond vraisemblablement aux residus 1 a 

11 ou 1 k 12 de la proline : MYSFVSEETGT(L), SEQ ID NO : 70. En effet, la 
10 probabilite associee k la localisation transmembranaire du residu 12 est intermediate 

(0,56 d'apres THMM 2.0). 

- Pectodomaine de M correspond vraisemblablement aux residus 2 a 
14 de la proteine : ADNGTITVEELKQ, SEQ ID NO : 69. En effet, la methionine N- 
terminale de M est tres probablement clivee du polypeptide mature car le residu en 

15 position 2 est une Alanine (Varshavsky, 1996, 93:12142-12149). 

Par ailleurs, 1'analyse de 1'hydrophobicite (Kyte & Doolittle, Hopp 
& Woods) de la proteine E met en evidence que l'extremite C-terminale de 
Fendodomaine de E est hydrophile et done vraisemblablement exposte a la surface de 
ce domaine. Ainsi, un peptide synth&ique correspondant a cette extremite est un bon 

20 candidat immunogene pour induire chez Tanimal des anticorps diriges contre 
l'endodomaine de E. En consequence, un peptide correspondant aux 24 residus C- 
terminaux de E a ete synthetis6. 

2) Preparation d'anticorps dirigSs contre 1'ectodomaine des prolines M et E et 
l'endodomaine de la proteine E 

25 Les peptides M2-14 (ADNGTITVEELKQ, SEQ ID NO : 69), El- 

12 (MYSFVSEETGTL, SEQ ID NO: 70) et E53-76 (KPTVYVYSRV 
KNLNSSEGVP DLLV, SEQ ID NO : 71) ont et<§ synthetises par Neosystem. lis ont 
&e couples a la KLH (Keyhole Limpet Hemocyanin) a 1'aide du MBS (m-maleimido- 
benzoyl-N-hydroxysuccinimide ester) via une cysteine ajoutee au cours de la synthese 

30 soit en N-terminal du peptide (cas de E53-76) soit en C-terminal (cas de M2-14 et El- 
12). 
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Deux lapins ont ete immunises avec chacun des conjugu6s, en 
suivant le protocole <T immunisation suivant : apres une premiere injection de 0,5 mg 
de peptide couple a la KLH et emulsionne en adjuvant complet de Freund (voie intra- 
demrique), les animaux re9oivent 2 a 4 injections de rappel a 3 ou 4 semaines 
5 d'intervalle de 0,25 mg de peptide couple a la KLH et emulsionne en adjuvant 
incomplet de Freund. 

Pour chaque lapin, un serum pre-immun (p.i.) a et6 prepar<§ avant la 
premiere immunisation et un immun-serum (LS.) est prepare 3 a 5 semaines apres les 
injections de rappel. 

10 La r6activit6 des s6rums est analyst dans un premier temps par test 

ELISA vis a vis du peptide utilise pour Fimmunisation, puis par immunoempreinte 
vis-a-vis de lysats de cellules infectees par le SARS-CoV, comme decrit pour les 
scrums anti-N et anti-S de l'exemple 4, selon des protocole similaires a ceux decrits 
aux exemples 3 et 6, respectivement pour P immunoempreinte et le test ELISA. 

15 Dans un second temps, la reactivite des immunserums dirig<§s 

centre les peptides M2-14 et El -12 a reconnaitre les ectodomaines de M et de E 
pr6sents a la surface de la particule virale native est analysee par des tests 
d'immunocapture et/ou d'immunoprecipitation de virions natifs. 

Excmple 6 : Analyse de la reactivite en ELISA de la proteine N recombinante, 
20 vis-sk-vis de scrums de patients atteints de SRAS 

1) Materiel 

L'antigene utilis6 pour preparer les phases solides est la nucleo- 
prot6ine N recombinante purifiee prdparee selon le protocole d6crit a l'exemple 2. 

Les serums a tester (Tableau IV) ont 6te choisis sur la base des 
25 resultats d'analyse de leur reactivite par immunofluorescence (titre IF-SRAS), vis-a- 
vis de lysats de cellules infectees par le SARS-CoV. 
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Tableau IV: Serums testes en ELISA 



Reference 


N° serum 


Type 


Date du 


Titre IF-SRAS 






de serum 


Serum*** 




3050 


A 


Temoin 


na* 


nt** 


3048 


B 


Temoin 


na 


nt 


033168 


D 


Patient 1- SRAS 


27/04/03 (J38) 


320 


033397 


E 


Patient-1 SRAS 


11/05/03 (J52) 


320 


032632 


F 


Patient-2 SRAS 


21/03/03 {J1 7) 


2500 


032791 


G 


Patient-3 SRAS 


04/04/03 (J3) 


<40 


033258 


H 


Patient-3 SRAS 


28/04/03 (J27) 


160 



*na : non-applicable. ** nt : non-teste. *** !es dates indrquees correspondent au nombre de 
jours apres le debut des symptomes de SRAS. 

5 

2) Methode 

La proteine N (100 fil) diluee a differentes concentrations dans du 
tampon carbonate 0,1 M, pH 9,6 (1, 2 ou 4 jxg/ml) est distribute dans les puits de 
plaques ELISA, puis les plaques sont incubees une nuit a temperature du laboratoire. 

10 Les plaques sont lavtes avec du tampon PBS-Tween, saturees avec du tampon PBS- 
lait ecreme-saccharose (5 %). Les serums a tester (100 fxl) prealablement dilues (1/50, 
1/100, 1/200, 1/400, 1/800, 1/1600 et 1/3200) sont ajoutes, puis les plaques sont incu- 
bees 1 h a 37° C. Apres 3 lavages, le conjugue anti-IgG humaines marque a la peroxy- 
dase (reference 209-035-098, JACKSON) dilue au 1/1 8000 est ajoute puis les plaques 

15 sont incubees lh a 37 °C. Apres 4 lavages, le chromogene (TMB) et le substrat (H 2 0 2 ) 
sont ajoutes et les plaques sont incubees 30min a temperature ambiante, a l'abri de la 
lumiere. La reaction est ensuite arretee puis Pabsorbance a 450 nm est mesur6e h 
l'aide d'un lecteur automatique. 

3) Resultats 

20 Les tests ELISA (figure 10) d6montrent que la preparation de 

proteine N recombinante est reconnue specifiquement par les anticorps de serums de 
patients atteints de SRAS preleves en phase taidive de V infection (> 17 jours apres le 
debut des symptomes) alors qu'elle n'est pas reconnue de fa<?on significative par les 
anticorps d'un sdrum de patient preleve en phase prtcoce de l'infection (3 jours apres 

25 le debut des symptomes) ni par des serums t&noins de sujets non atteints de SRAS. 
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Exemple 7 : Detection du coronavirus assocte au SRAS (SARS-CoV) par RT- 
PCR en temps reel a l'aide d'amorces specifiques du gene de la nucleoprot6ine 
1) Mise au point des conditions de la RT-PCR 

al conception des amorces et des sondes 
5 La conception des amorces et sondes a ete realisee a partir de la 

sequence du genome de la souche de SARS-CoV issue du pr616vement repertorie sous 
le numero 031589, a l'aide du programme "Light Cycler Probe Design (Roche)". 
Ainsi les deux series d'amorces et de sondes suivantes ont ete selectionnees : 

- seriel (SEQ ID NO : 60, 61, 64, 65): 

10 - amorce sens : N/+/28507 : 5'-GGC ATC GTA TGG GTT G-3' [28507-28522] 

- amorce antisens : N/-/28774 : 5'-CAG TTT CAC CAC CTC C-3' [28774-28759] 

- sonde 1 : 5'-GGC ACC CGC AAT CCT AAT AAC AAT GC-fluoresc6ine 3' [28561- 
28586] 

- sonde 2 : 5' Red705 -GCC ACC GTG CTA CAA CTT CCT-phosphate [28588-28608] 
1 5 - s&rie2 (SEQ ID NO : 62, 63, 66, 67) 

- amorce sens : N/+/28375 : 5 5 -GGC TAC TAC CGA AGA G-3' [28375-28390] 

- amorce antisens : N/-/28702 : 5'-AAT TAC CGC GAC TAC G-3 9 [28702-28687] 

- sonde 1 : SRAS/N/FL : 5'-ATA CAC CCA AAG ACC ACA TTG GC - fluorescein 3' 
[28541-28563] 

20 - sonde 2 : SRAS/N/LC705 : 5 9 Red705 -CCC GCA ATC CTA ATA ACA ATG CTG C- 
phosphate3' [28565-28589] 

b^ analyse de Tefficacite des deux couples amorces 

Afin de tester Pefficacit6 respective des deux couples d'amorces, une 
25 amplification par RT-PCR a ete rSalisee sur un ARN synthetique correspondant aux 
nucleotides 28054-29430 du genome de la souche de SARS-CoV issue du pr&eve- 
ment repertorie sous le numero 03 1 589et contenant la sequence du gene N. 

De maniere plus precise : 

Cet ARN synthetique a ete prepare par transcription in vitro a l'aide 
30 de TARN polymerase du phage T7, d'une matrice d f ADN obtenu par linearisation du 
plasmide SRAS-N avec Tenzyme Bam HJ. Apres elimination de la matrice dADN par 
digestion a l'aide de DNAse 1, les ARN synth&iques sont purifies par une extraction 
au ph£nol-chloroforme suivie de deux precipitations successives en acetate 
d'ammonium et isopropanoL lis sont alors quantifies par mesure de Tabsorbance a 260 
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nm et leur qualite est contrdlee par le rapport des absorbances a 260 et 280 nm ainsi 
que par tine electrophorese en gel d'agarose. Ainsi, la concentration de la preparation 
d'ARN synthetique utilisee pour ces 6tudes est de 1,6 mg/ml, ce qui correspond a 
2,1. 10 15 copies/ml d'ARN. 

5 Des quantites d6croissantes d'ARN synthetique ont ete amplifies par 

RT-PCR a l f aide du kit "Superscript™ One-Step RT-PCR with Platinum® Taq" et les 
couples d'amorces n° 1 (N/+/28507, N/-/28774) (figure 1 A) et n° 2 (N/+/28375, N/- 
/28702) (figure IB), en suivant les indications du fournisseur. Les conditions d'ampli- 
fication utilises sont les suivantes : l'ADNc a ete synthase par incubation 30 min a 

10 45 °C, 15 min k 55°C puis 2 min a 94 °C puis il a ete amplifie par 5 cycles compre- 
nant : une 6tape de denaturation k 94°C pendant 15 sec, une 6tape d'hybridation a 
45°C pendant 30 sec puis une etape d' elongation a 72°C pendant 30 sec, suivis de 35 
cycles comprenant : une etape de denaturation a 94°C pendant 1 5 sec, une etape 
d'hybridation a 55°C pendant 30 sec puis une 6tape d'elongation a 72°C pendant 30 

15 sec, avec 2 sec d' elongation suppl6mentaire a chaque cycle, et d'une etape finale . 
d'elongation a 72°C pendant 5 min. Les produits d' amplification obtenus ont ensuite 
et6 maintenus a 10°C. 

Les resultats pr£sentes a la figure 11 montrent que le couple 
d ! amorces n° 2 (N/+/28375, N/-/28702) permet de d&ecter jusqu'a 10 copies d ! ARN 

20 (bande de faible intensite) ou 10 2 copies (bande de bonne intensite) contre 10 4 copies 
pour le couple d'amorces n° 1 (N/+/28507, N/-/28774). Les amplicons sont respecti- 
vement de 268 pb (couple 1) et de 328 pb (couple 2). 

c) mise au point de la RT-PCR en temps reel 

Une RT-PCR en temps reel a 6t€ mise au point a 1'aide du couple 
25 d'amorces n°2 et du couple de sonde constitu6 par SRAS/N/FL et SRAS/N/LC705 
(figure 2). 

^amplification a 6te r6alis6e sur un LightCycler™ (Roche) a Taide 
du kit "Light Cycler RNA Amplification Kit Hybridization Probes " (r6f6rence 2 015 
145, Roche) dans les conditions optimisees suivantes. Un M61ange r6actionnel conte- 
30 nant : H 2 0 (6,8 pi), MgCl 2 25 mM (0,8 4 fiM final de Mg2+), melange r6actionnel 
5X (4 fil), sonde SRAS/N/FL 3fiM (0,5 jil, 0,075 jiM final), sonde SRAS/N/LC705 3 
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uM (0,5 pi, 0,075 uM final), amorce N/+/28375 10 uM (1 0,5 uM final), amorce 
N/-/28702 10 uM (1 ul, 0,5 uM final), melange d'enzyme (0,4 ul) et echantillon 
(ARN viral, 5 jxl) a ete amplifi6 en suivant le programme suivant : 
-Transcri ption inverse : 50°C 10:00min analysis mode: none 

5 - Denaturation : 95°C 30sec xl analysis mode: none 

- Am plification : 95°C 2sec ► 

50°C 15sec analysis mode: quantification *^ x45 

72°C 13sec rampe thermique 2,0°C/sec ► 

- refroidissement : 40°C 30sec xl analysis mode: none 

1 0 *La mesure de fluorescence se fait a la fin de l'hybridation et a chaque cycle (en mode 
SINGLE). 

Les resultats presentes a la figure 12 montrent que cette RT-PCR en 
temps reel est tres sensible puisqu'elle permet de detecter 10 2 copies d'ARN 
synthetique dans 100% des 5 echantillons analyses (29/29 echantillons dans 8 expe- 

15 riences) et jusqu'a 10 copies dARN dans 100% des 5 echantillons analyses (40/45 
echantillons dans 8 experiences). Elle montre egalement que cette RT-PCR permet de 
detecter la presence du genome du SARS-CoV dans un echantillon et de quantifier le 
nombre de gdnomes presents. A titre d'exemple, l'ARN viral d'un stock de SARS- 
CoV cultiv6 sur cellules Vero E6 a et6 extrait a l'aide du kit "Qiamp viral RNA 

20 extraction" (Qiagen), dilu6 a 0,05. 10" 4 et analyse par RT-PCR en temps reel selon le 
protocole decrit ci-dessus; l'analyse presentee a la figure 12 montre que ce stock de 
vims contient 6,5.10 9 genomes -equivalents/ml (geq/ml), ce qui est tout a fait 
similaire a la valeur de 1,0.10 10 geq/ml mesurde a l'aide du kit "RealArt™ HPA- 
Coronavirus LC RT PCR Reagents" commercialism par Artus. 

25 d^ detection de l'ARN du SARS-CoV par PCR en te mps reel a partir de prelevements 
respiratoires 

Une 6tude comparative a 6te realisee sur une serie de prelevements 
respiratoires re9us par le Centre National de R6ference du Virus Influenzae (region 
nord) et susceptibles de contenir du SARS-CoV. Pour ce faire, 1 ARN a ete extrait des 
30 prelevements a l'aide du kit "Qiamp viral RNA extraction" (Qiagen) et analys6 par 
RT-PCR en temps r6el, d'une part a l'aide des couples d'amorces et de sondes de la 
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serie n° 2 dans les conditions decrites ci-dessus d'une part, et d' autre part a Taide du 
kit "LightCycler SARS-CoV quantification kit" commercialism par Roche (reference 
03 604 438). Les resultats sont resumes dans le Tableau ci-dessous. lis montrent que 
1 8 des 26 prelevements sont negatifs et 5 des 26 prelevements sont positifs pour les 
5 deux kits, tandis qu'un prelevement est positif pour le seul kit Roche et deux pour les 
seuls reactifs N t, serie2". En outre, pour 3 prelevements (20032701, 20032712, 
20032714) les quantites d'ARN detectes sont nettement superieures avec les reactifs 
(sondes et amorces) de la serie n°2. Ces resultats indiquent que les amorces et sondes 
N"s6rie2 ,t sont plus sensibles pour la detection du genome du SARS-CoV dans des 
1 0 pr61evements biologiques que celles du kit actuellement disponible. 

Tableau V: Analyse par RT-PCR en temps reel des ARN extraits d'une serie de 
prelevements de 5 patients a l'aide des couples d'amorces et de sondes de la serie 
n° 2 (N "serie 2") ou du kit "LightCycler SARS-CoV quantification kit" (Roche). 
Le type de prelevement est indique ainsi que le nombre de copies de genome viral 
15 mesurees dans chacun des deux tests. NEG : RT-PCR negative. 



Prelevements n° 


Patient 


Type de prelevement 


KIT ROCHE 


N w serie2" 


20033082 


K 


nasal 


NEG 


NEG 


20033083 


K 


pharynge 


NEG 


NEG 


20033086 


K 


nasal 


NEG 


NEG 


20033087 


K 


pharynge 


NEG 


NEG 


20032802 


M 


nasal 


NEG 


NEG 


20032803 


M 


expectoration 


NEG 


NEG 


20032806 


M 


nasal ou pharynge 


NEG 


NEG 


20031 746ARN2 


C 


pharynge 


NEG 


NEG 


20032711 


C 


nasal ou pharynge 


39 


NEG 


20032910 


B 


nasal 


NEG 


NEG 


20032911 


B 


pharynge 


NEG 


NEG 


20033356 


V 


expectoration 


NEG 


NEG 


20033357 


V 


expectoration 


NEG 


NEG 


20031725 


K 


asp. endotracheale 


NEG 


150 


20032657 


K 


asp. endotracheale 


NEG 


NEG 


20032698 


K 


asp. endotracheale 


NEG 


NEG 


20032720 


K 


asp. endotracheale 


3 


5 


20033074 


K 


selles 


115 


257 


20032701 


M 


pharynge 


443 


1676 


20032702 


M 


expectoration 


NEG . 


249 


20031 747ARN2 


C 


pharynge 


NEG 


NEG 


20032712 


C 


inconnu 


634 


6914 


20032714 


c 


pharynge 


17 


223 


20032800 


B 


nasal 


NEG 


NEG 


20033353 


V 


nasal 


NEG 


NEG 


20033384 


V 


nasal 


NEG 


NEG 



60 

KF.VttNPICATIONS 
1°) Utilisation d'un produit selectionne dans le groupe constitu6 par : 
a) une proteine ou un peptide codd par le polynucleotide de sequence 

SEQIDNO: 1, 

5 b) un anticorps ou un fragment d'anticorps monoclonal ou poly- 

clonal dirige contre ladite proteine ou ledit peptide en a), et 

c) une puce ou un filtre a proteine ou a peptide comprenant la 
proteine ou le peptide en a) ou bien l'anticorps ou le fragment d'anticorps en b), 
pour la preparation d'un reactif de d6tection et eventuellement de serotypage, d'un 

10 coronavirus associe au SRAS. 

2°) Utilisation selon la revendication 1, caracterisee en ce que ladite 

proteine est selectionnee dans le groupe constitue par : 

- la proteine S de sequence SEQ ID NO :3 , 

- la proteine E de sequence SEQ ID NO : 14, 
15 - la proteine M de sequence SEQ ID NO : 1 7, 

- la proteine N de sequence SEQ ID NO : 37, et 

- les prolines codees par les ORF : ORPla, ORFlb, ORF3, ORF4 et 
ORF7 a ORF1 1, ORF13 et ORF14 de sequence respectivement, SEQ ID NO : 74, 75, 
10, 12, 22, 24, 26, 28, 30, 33 et 35 . 

20 3°) Utilisation selon la revendication 1, caracterisee en ce que ledit 

peptide est selectionne dans le groupe constitue par : 

a) les peptides correspondant aux positions 14 a 1 193 et 475 a 1193 
de la sequence en acides amines de la prot6ine S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
25 et 100 a 221 de la sequence en acides amines de la proteine M ; et 

c) les peptides correspondant aux positions 1 a 12 (SEQ ID NO : 70) 
et 53 a 76 (SEQ ID NO : 71) de la sequence en acides amines de la proteine E ; et 

les peptides de 5 a 50 acides amines consecutifs, de preference de 10 a 30 acides 
amines, inclus ou chevauchant partiellement ou totalement la sequence des peptides 
30 tels que definis en a), b) ou c). 
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REVENDICATIONS 

1 °) Utilisation d'un produit s61ectionne dans le groupe constitue par : 
a) une proline ou un peptide code par le polynucleotide de sequence 

SEQ ID NO: 1, 

5 b) un anticorps ou un fragment d'anticorps monoclonal ou poly- 

clonal dirige contre ladite proteine ou ledit peptide en a), et 

c) une puce ou un filtre a proteine ou a peptide comprenant la 
proteine ou le peptide en a) ou bien Tanticorps ou le fragment d'anticoips en b), 
pour la preparation d'un reactif de detection et eventuellement de serotypage, d'un 
1 0 coronavirus associe au SRAS. 

2°) Utilisation selon la revendication 1, caracterisee en ce que ladite 
proteine est selectionnee dans le groupe constitue par : 

- la proteine S de sequence SEQ ID NO :3 , 

- la proteine E de sequence SEQ ID NO : 14, 
15 - la proteine M de sequence SEQ ID NO : 1 7, 

- la proteine N de sequence SEQ ID NO : 37, et 

- les prolines codees par les ORF : ORFla, ORFlb, ORF3, ORF4 
et ORF7 a ORF11, ORE 13 et ORF 14 de sequence respectivement, SEQ ID NO : 74, 
75, 10, 12, 22, 24, 26, 28, 30, 33 et 35 . 

20 3 °) Utilisation selon la revendication 1, caracterisee en ce que ledit 

peptide est selectionne dans le groupe constitue par : 

a) les peptides correspondant axix positions 14 a 1193 et 475 a 1193 
de la sequence en acides amines de la proteine S, 

b) les peptides correspondant aux positions 2 a 14 (SEQ ID NO : 69) 
25 et 1 00 a 221 de la sequence en acides amines de la proline M ; et 

c) les peptides correspondant aux positions 1 a 12 (SEQ ID NO : 70) 
et 53 k 76 (SEQ ID NO : 71) de la sequence en acides amines de la proteine E ; et 

les peptides de 5 a 50 acides amines conseScutifs, de preference de 10 a 30 acides 
amines, inclus ou chevauchant partiellement ou totalement la sequence des peptides 
30 tels que definis en a), b) ou c). 

4°) Utilisation selon la revendication 1, caracterisee en ce que ledit 
peptide est constitue de 7 a 50 acides amines cons^cutifs codes par le polynucleotide 
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4°) Utilisation selon la revendication 1, caracterisee en ce que ledit 
peptide presente une sequence de 7 a 50 incluant un residu d'acide amine selectionne 
dans le groupe constitue par : 

- Talanine situ6e en position 2552 de la sequence en acides amines 
5 de la prot6ine cod6e par TORF1 a de la souche isol6e de coronavirus telle que d6finie a 

la revendication 1 ou a la revendication 2, 

- la serine situee en position 577 de la sequence en acides amines de 
la prot6ine S de la souche isolee de coronavirus telle que d6finie a la revendication 1 
ou a la revendication 2, 

10 - la glycine en position 11 de la sequence en acides amines de 

PORF3 de la souche isolee de coronavirus telle que definie a la revendication 1 ou a la 
revendication 2, et 

- la serine en position 154 de la sequence en acides amin6s de la 
proteine M de la souche isolee de coronavirus telle que definie a la revendication 1 ou 

15 a la revendication 2. 

5°) Methode de detection d'un coronavirus associe au SRAS, ipartir 
d'un echantillon biologique, laquelle methode est caracterisee en ce qu'elle comprend 
aumoins : 

(a) la mise en contact dudit echantillon biologique avec au moins un 
20 anticorps ou un fragment d' anticorps, une proteine, un peptide ou bien une puce ou un 

filtre a proteine ou a peptide tels que definis a Tune quelconque des revendications 1 a 
4,et 

(b) la revelation par tout moyen approprie des complexes antigene- 
anticorps formes en (a). 

25 6°) Methode selon la revendication 5, caracterisee en ce que Tetape 

(a) comprend : 

(ai) la mise en contact dudit echantillon biologique avec au moins un 
premier anticorps ou fragment d'anticorps qui est fixe sur un support approprie, 
notamment une microplaque , 
30 (a 2 ) le lavage de la phase solide, et 
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de sequence SEQ ID NO : 1, lequel peptide est seiectionne dans le groupe constitue 
par : 

-un peptide comprenant F alanine situee en position 2552 de la 
sequence en acides amines de la proline codee par 1'ORFla, 
5 - un peptide comprenant la serine situee en position 577 de la 

sequence en acides amines de la proline S, 

- un peptide comprenant la glycine en position 11 de la sequence en 
acides amines de la proteine cod6e par TORF3, et 

- un peptide comprenant la serine en position 154 de la sequence en 
1 0 acides amines de la proteine M. 

5°) Methode de detection d'un coronavirus associe au SRAS, a 
partir d'un echantillon biologique, laquelle methode est caracterisee en ce qu'elle 
comprend au moins : 

(a) la mise en contact dudit echantillon biologique avec au moins un 
1 5 anticorps ou un fragment d'anticorps, une proline, un peptide ou bien une puce ou un 

filtre a proteine ou a peptide tels que definis k Tune quelconque des revendications 1 a 
4,et 

(b) la revelation par tout moyen approprie des complexes antigdne- 
anticorps formes en (a). 

20 6°) Methode selon la revendication 5, caracterisee en ce que Tetape 

(a) comprend : 

(ai) la mise en contact dudit echantillon biologique avec au moins un 
premier anticorps ou fragment d'anticorps qui est fixe sur un support approprie, 
notamment une microplaque , 
25 (a 2 ) le lavage de la phase solide, et 

(a 3 ) Paddition d'au moins un second anticorps ou fragment 
d'anticorps, different du premier, ledit anticorps ou fragment d'anticorps etant even- 
tuellement marque de fa?on appropriee. 

7°) Kit ou coffret de detection d'un coronavirus associe au SRAS, 
30 caracterise en ce qu'i] comprend au moins un reactif seiectionne dans le groupe 
constitue par : une proteine ou un peptide, un anticorps ou un fragment d'anticorps et 
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(a 3 ) Paddition d'au moins un second anticorps ou fragment 
d'anticorps, different du premier, ledit anticorps ou fragment d'anticorps etant 6ven- 
tuellement marque de fa9on appropriee. 

7°) Kit ou coffret de detection d'un coronavirus associe au SRAS, 
5 caracterise en ce qu'il comprend au moins un reactif selection^ dans le groupe 
constitue par : une proteine ou un peptide, un anticorps ou un fragment d* anticorps et 
une puce ou un filtre a proteine ou a peptide tels que d6finis k Pune quelconque des 
revendications 1 a 4. 

8°) Composition immunogene, caracterisSe en ce qu'elle comprend 
10 au moins un produit selection^ dans le groupe constitue par : 

a) une proteine ou un peptide tels que definis a la revendication 1, 

b) un polynucleotide de type ADN ou ARN ou Tun de ses fragments 
representatifs tels que definis ci-dessus, de sequence choisie parmi : 

(i) la sequence SEQ ID NO : 1 ou son equivalent ARN 
15 (ii) la sequence hybridant dans des conditions de forte stringence 

avec la sequence SEQ ID NO : 1 , 

(iii) la sequence complementaire de la sequence SEQ ID NO : 1 ou 
de la sequence hybridant dans des conditions de forte stringence avec la sequence 
SEQ ID NO: 1, 

20 (iv) la sequence nucteotidique d'un fragment representatif du poly- 

nucleotide tel que d&fini en (i), (ii) ou (iii), 

(v) la sequence telle que d6finie en (i), (ii), (iii) ou (iv), modifiee, et 

c) un vecteur d 5 expression recombinant comprenant un 
polynucl^otide tel que defini en b), et 

25 d) une banque d' ADNc telle que definie ci-dessus. 

9°) Utilisation d'une proteine ou d'un peptide isoIS ou purifie 
presentant une sequence s61ectionn6e dans le groupe constitue par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75 pour 
former un complexe immun avec un anticorps dirig6 spScifiquement contre un epitope 
30 du coronavirus associe au SRAS. 

10°) Complexe immun form6 d'une proteine ou d'un peptide isole 
ou purifie pr6sentant une sequence selectionn6e dans le groupe constitue par les 
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une puce ou tin filtre a proline ou a peptide tels que definis a Tune quelconque des 
revendications 1 a 4. 

8°) Composition immunogene, caracterisee en ce qu'elle comprend 
au moins un produit s&ectionne dans le groupe constitue par : 
5 a) une proteine ou un peptide tels que definis a la revendication 1, 

b) un polynucleotide de type ADN ou ARN ou 1'un de ses fragments 
representatifs, de sequence choisie parmi : 

(i) la sequence SEQ ID NO : 1 ou son equivalent ARN 

(ii) la sequence hybridant dans des conditions de forte stringence 
0 avec la sequence SEQ ID NO : 1, 

(iii) la sequence complementaire de la sequence SEQ ID NO : 1 ou 
de la sequence hybridant dans des conditions de forte stringence avec la s6quence 
SEQ ID NO: 1, 

(iv) la sequence nucteotidique d'un fragment repr^sentatif du poly- 
nucleotide tel que defini en (i), (ii) ou (iii), 

(v) la sequence telle que defmie en (i), (ii), (iii) ou (iv), modiftee, et 

c) un vecteur d' expression recombinant comprenant un 
polynucleotide tel que d6fini en b), et 

d) une banque d'ADNc telle que definie ci-dessus. 
9°) Utilisation d'une proteine ou d'un peptide isole ou purifi6 

pTesentant une sequence s£lectionnee dans le groupe constitue par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, in vitro, 
pour former un complexe immun avec un anticorps dirige sp^cifiquement contre un 
Epitope du coronavirus assocte au SRAS. 

10°) Complexe immun form£ d'une proteine ou d'un peptide isole ou 
purifte presentant une sequence s61ectionn<5e dans le groupe constitue par les 
sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 
et 75, et d'un anticorps dirig£ specifiquement contre un epitope du coronavirus associe 
au SRAS. 

11°) Utilisation d'une proteine ou d'un peptide isolc ou purifi<§ 
pr<5sentant une sequence s61ectionn6e dans le groupe constitu6 par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, pour la 
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une puce ou un filtre a proteine ou a peptide tels que defmis a l'une quelconque des 
revendications 1 a 4. 

8°) Composition immunogene, caracterisee en ce qu'elie comprend 
au moins un produit selectionne dans le groupe constitue par : 
5 a) une proteine ou un peptide tels que definis a la revendication 1 , 

b) un polynucleotide de type ADN ou ARN ou l'un de ses fragments 
representatifs, de sequence choisie parmi : 

(i) la sequence SEQ ID NO : 1 ou son equivalent ARN 

(ii) la sequence hybridant dans des conditions de forte stringence avec la 
10 sequence SEQ ID NO : 1, 

(iii) la sequence complementaire de la sequence SEQ ID NO : 1 ou de la 
sequence hybridant dans des conditions de forte stringence avec la sequence SEQ ID 
NO : 1, 

(iv) la sequence nucleotidique d'un fragment representatif du poly- 
15 nucleotide tel que defini en (i), (ii) ou (iii), 

(v) la sequence telle que defmie en (i), (ii), (iii) ou (iv), modifiee, et 

c) un vecteur d'expression recombinant comprenant un polynucleotide tel 
que defini en b), et 

d) une banque d'ADNc comprenant un polynucleotide tel que defini en b). 
9°) Utilisation d'une proteine ou d'un peptide isole ou purifie 

presentant une sequence seiectionnee dans le groupe constitue par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, in vitro, 
pour former un complexe immun avec un anticorps dirige specifiquement contre un 
epitope du coronaviras associe au SRAS. 

10°) Complexe immun forme d'une proteine ou d'un peptide isole ou 
purifie presentant une sequence seiectionnee dans le groupe constitue par les 
sequences SEQ ID NO : 3, 10," 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 
et 75, et d'un anticorps dirige specifiquement contre un epitope du coronaviras associe 
au SRAS. 

11°) Utilisation d'une proteine ou d'un peptide isole ou purifie 
presentant une sequence seiectionnee dans le groupe constitue par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75, pour la 
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sequences SEQ ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 
et 75, et d'un anticorps dirige sp6cifiquement contre un epitope du coronavirus associe 
au SRAS. 

11°) Utilisation d'une proteine ou d'un peptide isole ou purifie 
5 presentant une sequence selectionnee dans le groupe constitue par les sequences SEQ 
ID NO : 3, 10, 12, 14, 17, 22, 24, 26, 28, 30, 33, 35, 37, 69, 70, 71, 74 et 75 pour 
induire la production d'un anticorps capable de reconnaitre specifiquement un epitope 

du coronavirus associe au SRAS. 

12°) Utilisation d'un polynucl6otide isole ou purifie presentant une 
1 0 sequence selectionn6e dans le groupe constitue par les sequences SEQ ID NO : 1 , 2, 4, 
7, 8, 13, 15, 16, 18, 19, 20, 31, 36 et 38 pour induire la production d'un anticorps 
dirig6 contre la proteine codee par ledit polynucleotide et capable de reconnaitre 
specifiquement un epitope du coronavirus associd au SRAS 



63 

preparation d'une composition immunogene apte a induire la production d'un 
anticorps capable de reconnaitre sp£cifiquement un epitope du coronavirus associe au 
SRAS. 

12°) Utilisation d'un polynucleotide isol£ ou purifi6 presentant une 
5 sequence selectionnee dans le groupe constitud par les sequences SEQ ID NO : 1, 2, 4, 
7, 8, 13, 15, 16, 18, 19, 20, 31, 36 et 38, pour la preparation d'une composition 
immunogene apte k induire la production d'un anticorps dirige contre la proline 
cod£e par ledit polynucleotide et capable de reconnaitre sp£cifiquement un epitope du 
coronavirus associe au SRAS. 
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SRAS-CoV M 10' 1 M 10" 1 
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ELISA-N 4|jg 



4,0000 




dilutions 



ELISA-N 2 pg 



4,0000 




dilution 



Figure 10a 
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ELISA-N 1 M9 




1,0000 
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dilutions 



Figure 10b 
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Figure 11 
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>< 



>< 



>< 



>< 
>< 
>< 
>< 
>< 
>< 



XhoII 
Sau3AI 
Ndell 
Mfll 
Mbol 
DpnII 



ATATTAGGTT TTTACCTACC 
10 20 



>< ScrFI 

>< Mval > < TthHB8I 

EcoRII > < TaqI 

>< Ecll36I >< Sau3AI 

DsaV >< Ndell 

>< BstOI >< MboIX Mnllx Dpnl 

>< BstNI >< DpnII >< BstYI 

>< BsiLI >< Dpnl >< BspAI 

BsaJI >< BspAI >< Bspl43I 

>< Apyl >< Bspl43ix Bglll 
CAGGAAAAGC CAACCAACCT CGATCTCTTG TAGATCTGTT CTCTAAACGA 

30 40 50 60 70 



>< Vnel 
>< SphI 

X Snol 
>< Rmal 
>< Pael >< Sdul 
>< Nspl >< NspII 
>< NspHI X HgiAI 
X Nlalll >< Bspl286I 
>< Mael >< Bmyl 
>< Tru9I >< ApaLI 

>< Msel >< Bbvl >< Alw4 4I 

>< Dral >< Alul > < Fnu4HI >< Alw21I 

ACTTTAAAAT CTGTGTAGCT GTCGCTCGGC TGCATGCCTA GTGCACCTAC GCAGTATAAA CAATAATAAA 
80 90 100 110 120 130 ■ 140 

>< Sfcl \ 

>< psti '3 

>< Mnll .. 
>< Ksp632I 
>< Earl 
>< Eamll04I 



>< Hindll 
>< Hindi 



> < MboII 
>< Maelll 



TTTTACTGTC GTTGACAAGA AACGAGTAAC TCGTCCCTCT TCTGCAGACT GCTTACGGTT TCGTCCGTGT 



150 



160 



170 



180 



190 



200 



210 



>< TthHB8I 
>< TaqI 
>< Sau3AI 
X Ndell 
X Mbol 
X DpnII 

X Dpnl 
X BspAI 

X Bspl43I 



X Styl 
X Rmal 
X Mael 
X EcoT14I 
>< Ecol30I 
X BssTlI 
x BsaJI 
X -Blnl 
X Avrll 



>< ScrFI 
X Neil 
X Mspl 

X Maelll 
>< Hpall 
X HapII 
x DsaV. 
>< Bcnl 

TGCAGTCGAT CATCAGCATA CCTAGGTTTC GTCCGGGTGT GACCGAAAGG TAAGATGGAG AGCCTTGTTC 
220 230 240 250 260 270 280 



>< Rmal 
x Esp3I X Maell 
>< Hindll >< MaeII> < Eco57I >< BsmAI X Mael 

X Hindi > < Afllll > < Ddel >< Alw26I X BsmBI 

TTGGTGTCAA CGAGAAAACA CACGTCCAAC TCAGTTTGCC TGTCCTTCAG GTTAGAGACG TGCTAGTGCG 
290 300 310 320 330 340 350 



FIGURE 13.1 
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>< Sau96I 
>< PssI 
>< Pall 
>< NspIV 
>< Mnll 
>< Haelll 
>< EcoO109I 

>< Drallx MboII >< Pmll 
>< Mnll >< Cfrl3l >< PmaCI 

>< Ksp632I >< BsuRI > < Maell 

>< Hinfl >< BsiZIX EcoNI >< Eco72I 

>< Earl >< BshI >< BslI >< BsaAI 

X Plel >< Eamll04I>< Asul >< BsiYlx BbrPI x Mnll 

TGGCTTCGGG GACTCTGTGG AAGAGGCCCT ATCGGAGGCA CGTGAACACC TCAAAAAT GG CACTTGTGGT 
360 370 380 390 400 410 420 

X Tru9I 

X Rsal X SfaNI 

x Rmal x Csp6I >< BspWI x Msel 

>< Mael X Alul x Afal >< Alul > < Maell 

CTAGTAGAGC TGGAAAAAGG CGTACTGCCC CAGCTTGAAC AGCCCTATGT GTTCATTAAA CGTTCTGATG 
430 440 450 460 470 480 490 

X Pall 

>< Haelll >< Rsal 

X Tru9I X Gdill Mcrl X 

>< Msel X Eael >< Csp6I 

>< Esp4I X BsuRI X BsmI BsiEI X 

X Aflll x BshI X Alul X BscCI X Afal 
CCTTAAGCAC CAATCACGGC CACAAGGTCG TTGAGCTGGT TGCAGAAATG GACGGCATTC AGTACGGTCG 

500 510 520 530 540 550 560 

X Nspl 
X Seal X NspHI 

x Rsal >< Nlalll 

> < Csp6I X BslX X MboII 

>< BsrI X BsiYI X MboII 

X Acil x Afal X Afllll X Muni X Acil 

TAGCGGTATA ACACTGGGAG TACTCGTGCC ACATGTGGGC GAAACCCCAA TTGCATACCG CAATGTTCTT 
570 580 590 600 610 620 630 

X TthHB8I 
X TaqI 
X Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
> < Dpnl 
X Clal 
>< Bsul5I 
X BspDI 

>< NlalV X BspAI 

X Mspl > < Bspl43I 

X Hpall X Bspl06l 

x HapII x BsiXI Maelll > 

>< CfrlOI X BscIX SfaNI Ddel X 

X BscBI X Alul X Banlll Bfrl X 

CTTCGTAAGA ACGGTAATAA GGGAGCCGGT GGTCATAGCT ATGGCATCGA TCTAAAGTCT TATGACTTAG 
640 650 660 670 680 690 700 



FIGURE 13.2 



16/83 



>< Sau3AI 
>< Ndell 
>< Mbol 

>< HphI Vnel >< 

>< DpnII Snol >< 

>< BspAI > < Nlalll 

>< AlwIX Dpnl >< Ddel ApaLI X 

X Alul X Bspl43I >< MboII X BsrI Alw4 4I X 

GTGACGAGCT TGGCACTGAT CCCATTGAAG ATTATGAACA AAACTGGAAC ACTAAGCATG GCAGTGGTGC 



710 



720 



730 



740 



750 



760 



770 



X Sdul 
X NspII 
x HgiAI 

x Drain 
X Bspl286I 
X Bmyl 
X Alw21I 



>< SstI 
x Sdul 
x Sad 
X NspII 

>< Mnll 
>< HgiAI 
X Eco24l 

x Ecll36II 
X Bspl286I 
X Bmyl 
x Banll 
X Alw21I 

X Alul 



X Maelll 



X TthHB8I 
X TaqI 

> < Sail 

> < Rtrl 

>< Hindll 
>< Hindi 
>< Bsgl 
>< AccI 



ACTCCGTGAA CTCACTCGTG AGCTCAATGG AGGTGCAGTC ACTCGCTATG TCGACAACAA 



780 



790 



800 



810 



820 



830 



Sau96I >< 
Pall >< 
NspIV >< 
Haelll >< 
Cfrl3I X 
BsuRI >< 
BsiZI X 
BshI X 
Asul X 
TTTCTGTGGC 
840 



> < Rsal 

> < NlalV 

X Kpnl 
X Eco64I 
x Csp6I 

> < BscBI 
X BanI 

X Asp718 

> < Afal 
X AccBlI 
X Acc65I 

CCAGATGGGT ACCCTCTTGA 
850 860 



> < 

> < 



X Thai 
x Thai 

x Mvnl 
X Mvnl 
X HinPlI 
x Hin6I 

X Hhal 

>< Cfol 

X BstUI 
>< BstUI 

X Bsp50I 
X Bsp50I 

x Acil 

X AccII 
X Mnll X SfaNI >< AccII 

TTGCATCAAA GATTTTCTCG CACGCGCGGG CAAGTCAATG TGCACTCTTT 
870 880 890 900 910 



Vnel 
Snol 
x Sdul 
NspII X 
HgiAI X 
Bspl286I X 

X Bmyl 

> < ApaLI 

> < Alw4 4I 
Alw21I X 



X TthHB8I 
X TthHB8I 

X TaqI 

X TaqI - - " 

X Mnll 

X Ksp632I Nlalll X 

>< HinfIX Plel X Nlalll 

X Eamll04I X MboII X Maelll EcoRII >< 

X Earl > < Bbvlx AccI >< Fnu4HI DsaV x 

CCGAACAACT TGATTACATC GAGTCGAAGA GAGGTGTCTA CTGCTGCCGT GACCATGAGC ATGAAATTGC 
920 930 940 950 960 970 980 



X ScrFI 



X HinPlI 



X TthHB8I 
X TaqI 
X Sful 

X NspVX Tru9I 
X Lsplx Msel 



FIGURE 13.3 
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X Mval >< Hin6I >< sduI >< Csp45I 

>< EC1136I >< Hhal >< NspII >< BstBI 

>< BstOI >< Haell >< HgiAI >< Bspll9I 

>< BstNI x ECQ47III >< BS pl286I X BsiCI 

x BsiLI x Cfol >< BrayI >< Bpul4I 

X Apyl x Ddel X Bspl43ll X Alul x Alw21I x AsuII 

CTGGTTCACT GAGCGCTCTG ATAAGAGCTA CGAGCACCAG ACACCCTTCG AAATTAAGAG TGCCAAGAAA 

990 1000 1010 1020 1030 1040 1050 

>< Tru9I 
X BsmI >< Msel 

>< BscCI > < MnlI 

TTTGACACTT TCAAAGGGGA ATGCCCAAAG TTTGTGTTTC CTCTTAACTC AAAAGTCAAA GTCATTCAAC 
1060 1070 1080 1090 1100 1110 1120 

>< Pmll 
>< PmaCI 
X Mae I I 
X Eco72I 

X Bbr£ 

>< *SS X MnlXx Dde i X^" 071 x'aI" 

CACGTGTTGA AAAGAAAAAG ACTGAGGGTT TCATGGGGCG TATACGCTCT GTGTACCCTG TTGCATCTCC 

1130 1140 1150 1160 1170 1180 U90 

>< SfaNI 

>< Maelll >< AccI NlaTTT >< 

ACAGGAGTGT AACAATATGC ACTTGTCTAC CTTGATGAAA TGTAATCATT GCGATGAAGT TTCATGGCAG 
1200 1210 1220 1230 1240 1250 1260 

>< SinI 
X Sau96l 
PssI x 

X Psp5II 
X PpuMI 
>< NspIV 

>< NspHII 
>< Eco47I 
>< Drall 
X Cfrl3X 
>< BsiZI 
>< Bmel8I 
>< Avail 

X Maell >< AsuI 

ACGTGCGACT TTCTGAAAGC CACTTGTGAA CATTGTGGCA CTGAAAATTT AGTTATTGAA GGaSSct^ 
1270 1280 1290 1300 1310 1320 13 30 

Van91I x 

>< Rsal „ S i nI >< 

x Nspl Sau96I x 

>< NlalV Pf \f >< 

x Nlalll Ns P IV >< 

>< NspHIX Kpnl NspHII > 

X Eco64I Eco47l x 

x Cs P 6I Cfrl3l >< 

X BscBI Bsl1 ><: 

x Banl BsiZI X 

X Asp718 BsiYI >< 

x Afal BmelSI x 

>< AccBlI AvaI1 >< 



Asul X 



FIGURE 13.4 
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>< Acc65I >< Sfcl >< Nlalll AccB7I >< 

CATGTGGGTA CCTACCTACT AATGCTGTAG TGAAAATGCC ATGTCCTGCC TGTCAAGACC CAGAGATTGG 
1340 1350 1360 1370 1380 1390 1400 

>< TthHB8I 
>< TaqlX Mnll 
X Hinfl 

>< Ddel >< Plel >< Acil 

ACCTGAGCAT AGTGTTGCAG ATTATCACAA CCACTCAAAC ATTGAAACTC GACTCCGCAA GGGAGGTAGG 
1410 1420 1430 1440 1450 1460 1470 

X Rmal NlalV X 

X Mnll >< BsrI 

X Mael >< Bbvl X Fnu4HI BscBI X 

ACTAGATGTT TTGGAGGCTG TGTGTTTGCC TATGTTGGCT GCTATAATAA GCGTGCCTAC TGGGTTCCTC 

1480 1490 1500 1510 1520 1530 1540 



x Rmal 

X Mnll 
>< Mael 



> < 



x 

X 
X 
Ddel 



Pall 

Haelll 

BsuRI 

X 



x BsrI 
BspWI 



X Bshix Bgll 



X Maelll 

x Eco31I 
X BsrI 

X BsmAI 
X BsalX 
X Alw26I 



XhoII X 
Sau3AI X 
Ndell X 
Mfll X 
Mbol X 
DpnII X 
x Mnll Dpnl > 
BstYI X 
HphI BspAI X 
Bspl43I > 



GTGCTAGTGC TGATATTGGC TCAGGCCATA CTGGCATTAC TGGTGACAAT GTGGAGACCT TGAATGAGG^ ,; 
1550 1560 1570 1580 1590 1600 1610' 



> < Mnll 

> < Ksp632I 

> < Earl 

> < Eamll04I 



> < Tru9I 

> < Msel 
x Maell x Tru9I 

x Hpal 
X Hindll 
>< Hinfl x Plel >< Hindi 
x Alwl X Ddel X Afllll >< Msel 

TCTCCTTGAG ATACTGAGTC GTGAACGTGT TAACATTAAC ATTGTTGGCG ATTTTCATTT GAATGAAGAG 
1620 1630 1640 1650 1660 1670 1680 

X MboII Plel >< 

>< BstXI >< SfaNI > < Hinfl 

GTTGCCATCA TTTTGGCATC TTTCTCTGCT TCTACAAGTG CCTTTATTGA CACTATAAAG AGTCTTGATT 
1690 1700 1710 1720 1730 1740 1750 



>< Styl 
>< Maelll 

x EcoT14I 
X Plel X Ecol30I 

X Maelll >< BssTlI BslI x 

x HinfIX Acil >< BsaJI BsiYI x 

ACAAGTCTTT CAAAACCATT GTTGAGTCCT GCGGTAACTA TAAAGTTACC AAGGGAAAGC CCGTAAAAGG 



1760 



1770 



1780 


1790 




1800 


1810 1820 


>< Sau3AI 




X 


Van91I 




>< Ndell 




X 


PflMI 




X Mbol 




X 


Drain 




X DpnII 




X 


BslI 




X Dpnl >< 


Tru9I 


X 


BsiYI 




X BspAI X 


Msel 




x Bbvl 


X Mnll 


x Bspl4 3I 




X 


AccB7I 


Fnu4HI X 



FIGURE 13J5 
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TGCTTGGAAC ATTGGACAAC AGAGATCAGT TTTAACACCA CTGTGTGGTT TTCCCTCACA GGCTGCTGGT 
1830 1840 1850 1860 1870 1880 1890 







**** llldl 






*!><r Q -Fa MT 
oEclLNJL 






>< Mvni 






>< HinPlI 




>< 


XX A nDl T 






>< Hin6I 




>< 


Hin6I 






>< Hhal 


>< Sau3AX 




>< Hhal 


>< Ndell 




X Cfol 


>< Mbol 




x Cfol 


>< DpnII 




X BstUI 


>< Dpnl 


X 


BssHII 


>< BspAI 




X Bsp50I 


>< Bspl4 3I 




X AccII 


GTTATCAGAT CAATTTTTGC 


GCGCACACTT 


1900 1910 


1920 



X Fnu4HI X Bbvl 



1930 



1940 



1950 



PvuII > 
PspSI > 
NspBII > 
HphI X 
Fnu4HI X 

Alul > 
CAAAGAGCAG 
1960 



>< TthHB8I 

>< Styl 
X Ncol 
>< Hindll 
X Hindi 
>< Hinll 

X EcoT14I 
x Eco57I 
X Taqlx Ecol30l 
>< Sail >< Dsal 
>< Rtrl x BssTlI 
>< BsaHI 

^ ka f t* t >K Bbillx Nlalll 

>K MaeI11 w X Acyl X Hgal 

„ mom ,^ BbvI >< Maell X Acclx BsaJI HphI X 

CTGTCACCAT ACTTGATGGT ATTTCTGAAC AGTCATTACG TCTTGTCGAC GCCATGGTTT ATACT TCAGA 
1970 1980 1990 2000 2010 2020 2030 

X Rsal 

>< Ndel > < Csp6I 

X BspMI >< Maelll X BsrI X Afal x Ddel 

CCTGCTCACC AACAGTGTCA TTATTATGGC ATATGTAACT GGTGGTCTTG TACAACAGAC TTCTCAGTGG 
2040 2050 2060 2070 2080 2090 2100 

X StuI 
>< Pall 
x Haelll 
>< Ecol47I 
>< Ddel 

X BsuRI 

>< BshI DdeI >< 

>< AatI > < Mnll Bfrl >< 

TTGTCTAATC TTTTGGGCAC TACTGTTGAA AAACTCAGGC CTATCTTTGA ATGGATTGAG GCGAAACTTA 
2110 2120 2130 2140 2150 2160 2170 



>< Sdul 
X NspII 
X Bspl286I 
>< Bmyl 



X Tfil 

>< Hinfl Tthllll >< 

>< SfaNI x Bsgl x Fokl AsdI x 

GTGCAGGAGT TGAATTTCTC AAGGATGCTT GG G AG ATT CT CAAATTTCTC ATTACAC3GTG TTTTTGACAT 
2180 2190 2200 2210 2220 2230 2240 



FIGURE 13.6 
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Tru9I >< 
Msel >< 
Hpal > 
Hindu > 

>< Eco57I Hindi > 

CGTCAAGGGT CAAATACAGG TTGCTTCAGA TAACATCAAG GATTGTGTAA AATGCTTCAT TGATGTTGTT 
2250 2260 2270 2280 2290 2300 2310 



>< Sau3AI 
>< Ndell 
>< Mbol 

> < Maelll 

>< Fbal 
>< DpnII 

>< Dpnl 

>< BspAI >< HinPlI 

>< Bspl43I >< Hin6I 

>< TthHB8I >< BsiQI >< Hhal 

>< TaqI >< Bell >< Cfol 

AACAAGGCAC TCGAAATGTG CATTGATCAA GTCACTATCG CTGGCGCAAA GTTGCGATCA CTCAACTTAG 
2320 2330 2340 2350 2360 2370 2380 



>< Sau3AI 
>< Ndell 
>< DpnII 

>< DpnIMboII >< 

Ddel >< 
>< Bspl43I 
>< MboIBfrl >< 
X BspAI Bbsl >< 



X HphI 



>< DrdI 



X Maell 
X Bstll07I 
X BsaAI 
X Bbvl 
X AccI 



X PvuII 
X PspSI 
X NspBII 
Fnu4HI X 

> < Fnu4HI 
X Alul 



GTGAAGTCTT CAT CGCT CAA AGCAAGGGAC TTTACCGTCA GTGTATACGT GGCAAGGAGC AGCTGCAACT 
2390 2400 2410 2420 2430 2440 2450 



X Tru9I 

x NlalV 
>< Msel 

x Mnll 

x Esp4I >< ScaI 

X Eco64I >< RsaI 

x BscBI >< NlaHIMnll X 

x Nlalll X BanI Mnll >< 

X Aflll >< Tfil >< Csp6I 

X Bbvl >< AccBlI x Maelll >< Hinfl >< HphI X Afal 
ACTCATGCCT CTTAAGGCAC CAAAAGAAGT AACCTTTCTT GAAGGTGATT CACATGACAC AG T AC T T ACC 

2460 2470 2480 2490 2500 2510 2520 



> < Xhol 

X TthHB8I 
X TthHB8IX TaqI 

> <SlaI . 

> < PaeR7I 

> < NspIII 

>< HphI >< Hinll 

> < Eco88I 

> < Ccrl 

X Esp3I X BsaHI 

> < Bcol 

>< BsmAI >< Bbill 

> < Aval >< Hgal 
X TaqI > < Ama87IX BsmBI 

X DdelX Mnll >< Alw26I >< Acyl >< Alul 

TCTGAGGAGG TTGTTCTCAA GAACGGTGAA C TCGAAGC AC TCGAGACGCC CGTTGATAGC TTCACAAATG 
2530 2540 2550 2560 2570 2580 2590 



FIGURE 13.7 
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>< Pall >< Nlalll 
>< Haelll >< Mnll 
>< BsuRI >< Ddel >< Tru9I 
>< Alul >< BsrI >< BshI X Bfrl >< Msel 

GAGCTATCGT TGGCACACCA GTCTGTGTAA ATGGCCTCAT GCTCTTAGAG ATTAAGGACA AAGAACAATA 



2600 



2610 



2620 



2630 



2640 



2650 



2660 



>< Vnel 

Tru9I X 
>< Snol 

>< Sdul 
>< NspII 
Msel >< 
>< HgiAI 
Bspl286I XBslI >< 
BsiYI >< 
>< Bmyl 
>< ApaLI 
>< Tru9I >< Alw4 4I 
>< BsrI >< Msel X Alw21I 

CTGCGCATTG TCTCCTGGTT TACTGGCTAC AAACAATGTC TTTCGCTTAA AAGGGGGTGC ACCAATTAAA 
2670 2680 2690 2700 2710 2720 2730 



>< MstI 
>< HinPlI 
>< Hin6I 
>< Hhal 
>< Fspl 
x Fdill 
X Cfol 
>< Avill 



X ScrFI 
x Mval 

X EcoRII 
X Ecll36I 

>< DsaV 
X BstOI 
X BstNI 
>< BsmAI 
X BsiLI 
>< Apyl 
X Alw26I 



X Tfil 

>< Maelll x MboII > < Maelll x Hinfl Alul X 

GGTGTAACCT TTGGAGAAGA TACTGTTTGG GAAGTTCAAG GTTACAAGAA TGTGAGAATC ACATTTGAGC 



2740 



2750 



2760 



2770 



2780 



2790 



2800 



x Maell 
x 

X 

X Afllll 



Hindll 
HincIX 



>< Tru9I 
>< Msel 



x Sdul 

X NspII X 

X HgiAI 

x Bspl286I . 

X Brayl X 

X Alw21I 

>< AccI 



X Rsal 
X NlalV 
Maelll X 

X MspIX Kpnl 

>< Hpall 

>< HapII 

> < Eco64I 
>< Csp6I 

Tfil X BscBI 

> < BanI 

> < Asp718 
Hinfl x Afal 

> < AccBlI 

> < Acc65I 



TTGATGAACG TGTTGACAAA GTGCTTAATG AAAAGTGCTC TGTCTACACT GTTGAATCCG GTACCGAAGT 
2810 2820 2830 2840 2850 2860 2870 



>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 

X Nspl > < Dpnl 

X NspHI X MboII X BspAI 

X Nlalll > < BsrI > < Bspl43I 

>< Ddel X Mnll X AlwNI X Bbsl X AlwNI 

TACTGAGTTT GCATGTGTTG TAGCAGAGGC TGTTGTGAAG ACTTTACAAC CAGTTTCTGA TCTCCTTACC 
2880 2890 2900 2910 2920 2930 2940 



X Sau3AI 
>< Ndell 
X Mbol 
>< DpnII 

X Dpnl 
X BspAI 



FIGURE 13.8 
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X NlalllX Bspl43I >< Alul >< SfaNI 

AACATGGGTA TTGATCTTGA TGAGTGGAGT GTAGCTACAT TCTACTTATT TGATGATGCT GGTGAAGAAA 
2950 2960 2970 2980 2990 3000 3010 



>< MboII >< Gsul 

>< BsaAI 

>< HphI >< MaelTX Bpml >< Mnll 

ACTTTTCATC ACGTATGTAT TGTTCCTTTT ACCCTCCAGA TGAGGAAGAA GAGGACGATG CAGAGTGTGA 
3020 3030 3040 3050 3060 3070 3080 



>< SfaNI 
X Mnll 
>< Ksp632I 
>< Earl 
>< Eamll04I 



>< Mnll 
> <. MboII 
>< MboII 



> < Rsal 
>< Rsal 
>< Nlalll 

>< Mnll 

>< Csp6I 
>< Csp6I 

>< MboII > < Afal 

>< MboII >< Afal 

GGAAGAAGAA ATTGATGAAA CCTGTGAACA TGAGTACGGT ACAGAGGATG AT TAT CAAGG TCTCCCTCTG 
3090 3100 3110 3120 3130 3140 3150 



>< Fokl 
Eco31I >< 
X Maml BsmAI X 
>< BsiBI Bsal >< 
>< BsaBIAlw26I X 



X NlalVx PvuIlX XmnI 
X Eco64I X PspSI >< TthHB8I 
X Mnll >< Ddel >< TaqI 

X BscBIX NspBII X Mnll 
x BanI >< Mnll 

X AccBlI X Alul X Asp700I 



X Mnll >< MboII 

X Ksp632I >< MboII >< MboII 

X Earl • x BsrI 

X Eamll04I X Mbolix Bbsl 



GAATTTGGTG CCTCAGCTGA AACAGTTCGA GTTGAGGAAG AAGAAGAGGA AGACTGGCTG GATGATACTA 
3160 3170 3180 3190 3200 3210 3220 

X Tru9I 

>< Fokl Msel >< Eco57I 

x Ddel >< Bsrix MboII BsrI >< 

CTGAGCAATC AGAGATTGAG CCAGAACCAG AACCTACACC TGAAGAACCA GTTAATCAGT TTACTGGTTA 
3230 3240 3250 3260 3270 3280 3290 

>< Tru9X >< Mnll 

X Msel >< Tru9I >< HindllX Tru9I X Dralll 

x Dral >< Msel >< Hinclix Msel >< BspWI 

TTTAAAACTT AC TGACAATG TTGCCATTAA ATGTGTTGAC ATCGTTAAGG AGGCACAAAG TGCTAATCCT 



3300 



3310 



3320 



3330 



3340 



3350 



3360 



X Vnel 
X Snol 

> < 

> < 
. > < 

> < 

> < 
X ApaLI 
x Alw4 4I 

> < Alw21I 



Sdul 
NspII 
HgiAI 
Bspl286I 
Bmyl 



X HphI > < Nlalll 

X Bbvl X Fnu4HI >< BspMI 

ATGGTGATTG TAAATGCTGC TAACATACAC CTGAAACATG GTGGTGGTGT AGCAGGTGCA CTCAACAAGG 
3370 3380 3390 3400 3410 3420 3430 



>< NlalV 



>< Sau96I 
x Pall 

x NspIV 
X Haelll 

x Cfrl3I 



FIGURE 13.9 
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> < Tru9I 

> < Msel 



>< Eco64I 

>< BscBI 
>< BanI 

X AccBllX Nlalll >< Alul >< Asul >< Mnll 

CAACCAATGG TGCCATGCAA AAGGAGAGTG ATGATTACAT TAAGCTAAAT GGCCCTCTTA CAGTAGGAGG 
3440 3450 3460 3470 3480 3490 3500 



>< BsuRI 
>< BsiZI 
>< BshI 



>< Mnll 



>< SinI 
X Sau96I 
>< NspIV 
>< NspHlX NspHII 
X Eco47I 
>< Cfrl3I 
>< Nlalll X BspMI 
X BsiZI 
>< Bmel8I 
x Avail Mnll x 
> < Ddel >< NspIX Asul Fokl >< 

GTCTTGTTTG CTTTCTGGAC ATAATCTTGC TAAGAAGTGT CTGCATGTTG TTGGACCTAA CCTAAATGCA 
3510 3520 3530 3540 3550 3560 3570 

> < Tru9I 
>< Hphl> < Msel 
X Esp4I 
>< Alul > < Ndel 

x AflllX Fnu4HI X Bbvl 
GGTGAGGACA TCCAGCTTCT TAAGGCAGCA TATGAAAATT TCAATTCACA GGACATCTTA CTTGCACCAT 
3580 3590 3600 3610 3620 3630 3640 

Rsal x 
Csp6l >< 

X Eco57I >< Bcgl Afal x 

TGTTGTCAGC AGGCATATTT GGTGCTAAAC CACTTCAGTC TTTACAAGTG TGCGTGCAGA CGGTTCGTAC 
3650 3660 3670 3680 3690 3700 3710 

>< Bsgl >< BspMI 

>< Bcgl/a x Alul >< Nlalll 

ACAGGTTTAT ATTGCAGTCA ATGACAAAGC TCTTTATGAG CAGGTTGTCA TGGATTATCT TGATAACCTG 
3720 3730 3740 3750 3760 3770 3780 



X Mnll 

>< Rmal > < Mnll x NlalV >< Tfil x MboII 

>< Mael >< Eco57I x BscBI x Hinfl >< Ddel 

AAGCCTAGAG TGGAAGCACC TAAACAAGAG GAGCCACCAA ACACAGAAGA TTCCAAAACT GAGGAGAAAT 



3790 



3800 



3810 



3820 



3830 



3840 



3850 



>< 



X 



Tru9I 
>< 

X 

Msel 
x 

X 
X 
X 



StuI 
Pall 

>< Mnll 
Haelll 
Ecol47I 
BsuRI 
BshI 



X Rsal 
>< Csp6l >< TthHB8I 

X Afal >< TaqI >< AatI 

CTGTCGTACA GAAGCCTGTC GATGTGAAGC CAAAAATTAA GGCCTGCATT 
3860 3870 3880 3890 3900 



>< Maelll 
>< Eco0651 
X Eco91I 

BstXI X 
>< BstPI 
>< BstEII 
GATGAGGTTA CCACAACACT 
3910 3920 



>< Ddel 



X EcoRV 



Tfil >< 
Nlalll >< 
Hinfl X 
>< Hindlll 



FTfST fRK n in 
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>< BsrI >< MboII >< Maelll >< Eco32I >< Alul 

GGAAGAAACT AAGTTTCTTA CCAATAAGTT ACTCTTGTTT GCTGATATCA ATGGTAAGCT TTACCATGAT 
3930 3940 3950 3960 3970 3980 3990 

>< Nspl 
>< NspHI 

>< Nlalll >< SfaNI 

X Mnll > < EcoNI 

>< Ddel >< MboII >< BslI > < Nla'III 1 

>< Ddel >< Bfrl >< HphI >< BsiYI >< Fokl 

TCTCAGAACA TGCTTAGAGG TGAAGATATG TCTTTCCTTG AGAAGGATGC ACCTTACATG GTAGGTGATG 
4000 4010 4020 4030 4040 4050 4060 

>< Spel 
>< Rmal 

>< Mael >< EcoRVX HphI >< SfaNI 

>< HphI >< Eco32I >< Mnll >< Ddel 

TTATCACTAG TGGTGATATC ACTTGTGTTG TAATACCCTC CAAAAAGGCT GGTGGCACTA CTGAGATGCT 
4070 4080 4090 4100 4110 4120 4130 

X ScrFI 
>< Rsal 

X Mval 
X EcoRII 

X Ecll36I 
x DsaV 
X Csp6I X EcoNI 

>< BstOI >[< 
X BstNI 
X BsiLI 
X BsaJI 
X BsaAI >< BslI 
x MboII X Maelix Apyl 

x Alul X BsrI >'< Afal >< BsiYI 

CTCAAGAGCT TTGAAGAAAG TGCCAGTTGA TGAGTATATA ACCACGTACC CTGGACAAGG ATGTGCTGGT 
4140 4150 4160 4170 4180 4190 4200 



X Tru9I 
x Msel 

x Ddel >< Esp4I >< Rsal 

X Mnll >< BspWI x Csp6I 

X Fokl X Alul >< Aflll >< Eco57I X Afal 

TATACACTTG AGGAAGCTAA GACTGCTCTT AAGAAATGCA AATCTGCATT T TAT GT ACTA CCTTCAGAAG 



4210 



4220 



4230 



4240 



4250 



4260 



4270 



X ScrFI 
x Mval 
X EcoRII 

X Ecli36I 
X DsaV 
x BstOI 
X BstNI 
X BsiLI 
>< Apyl 

CACCTAATGC TAAGGAAGAG ATTCTAGGAA CTGTATCCTG GAATTTGAGA GAAATGCTTG CTCATGCTGA 
4280 4290 4300 4310 4320 4330 4340 



> 
> 
> 
> 



x 
Ksp632I 
Earl > 
Eamll04I 
Ddel > 



XmnI 

x Rmal 

< TfilX MboII 

>< Mael 

< Hinfl 



X BspWI 



X Asp700I 



Nlalll >< 
Ksp632i X 

>< Earl 
Eamll04I X 

BsmAI >< 
Alw26I X 



x Vspl 
>< Tru9I 
>< Msel 
>< MboII 



X 2sp2I 
X PpulOI 

X Nsil 

X Nlalll 



>< Eco57I 



X Mphll03I 

FIGURE 13. 11 



>< Fokl 
X Fokl 
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x Asnl >< EcoT22I >< BspWI 

>< Asel X Avalll >< Bgll >< Maell 

AGAGACAAGA AAATTAATGC CTATATGCAT GGATGTTAGA GCCATAATGG CAACCATCCA ACGTAAGTAT 
4350 4360 4370 4380 4390 4400 4410 

>< SfaNI 

>< Tru9I > < Hindll >< Tfil >< Spel 

>< Msel > < HincIIX MboII >< Rmal 

>< Mnll >< DrdI >< Hinfl >< Mael 

AAAGGAATTA AAATTCAAGA GGGCATCGTT GACTATGGTG TCCGATTCTT CTTTTATACT AGTAAAGAGC 
4420 4430 4440 44 50 44 60 4470 44 80 



>< Maelll 

>< Sfcl >< Fnu4HI X Muni 

>< Alul >< Alul >< Acil Maelll >< 

CTGTAGCTTC TATTATTACG AAGCTGAACT CTCTAAATGA GCCGCTTGTC ACAATGCCAA TTGGTTATGT 



4490 



4500 



4510 



4520 



4530 



4540 



4550 



>< Thai 
>< Mvnl 

>< MboII 
>< HinPlI 
>< HinPlI 

>< Hin6I 
>< Hin6I 

>< Hhal 
X Hhal 

>< Nlalll X Fnu4HI 

x Cfol 
x Cfol 
X BstUI 
>< BssHIlX BspWI >< Tru9I 
x BspSOI >< Msel 

X AccII X Alul HphI X 

GACACATGGT TTTAATCTTG AAGAGGCTGC GCGCTGTATG CGTTCTCTTA AAGCTCCTGC CGTAGTGTCA 
4560 4570 4580 4590 4600 4610 4620 



X Tru9I 
Nlalll 
x Msel 

>< Mnll 
X Ksp632I 
>< Earl 
X Eamll04I 
>< Bbvl 



x Maelll 

X SfaNI >< AlwNI X Mnll X Mnlix Ddel 

GTATCATCAC CAGATGCTGT TACTACATAT AATGGATACC TCACTTCGTC ATCAAAGACA TCTGAGGAGC 



4630 



4640 



4 650 



4660 



4670 



4680 



4690 



Sdul 
NspII 
HgiAI 
Bspl286I 
Bmyl 



x 

X 
X 
X 
X 

X Alw21I 



x SinI 
x Sau96I 
X NspIV 

X NspHII 
X Eco47I 
>< Cfrl3I 
>< BsiZI 
X Bmel8I 
>< Avail 
X Asul 



>< Rsal 
>< Csp6I 
>< Afal 



ACTTTGTAGA AACAGTTTCT TTGGCTGGCT CTTACAGAGA TTGGTCCTAT TCAGGACAGC GTACAGAGTT 



4700 



4710 



4720 



4730 



4740 



4750 



4760 



X Tru9I 
>< Msel 
X Esp4I 



X Rsal 
>< HphI 
X Csp6I 



>< Van91I 
>< PflMI 
X BslI 
X BsiYI 



> < TthHB8I 

> < TaqI 
>< Sdul 

>< NspII 

>< Eco24I 

X Bspl286I 

X Bmyl Gsul X 



FIGURE 13.12 
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>< Aflll >< Maelll >< Afal >< AccB7I >< BanllBpml >< 

AGGTGTTGAA TTTCTTAAGC GTGGTGACAA AATTGTGTAC CACACTCTGG AGAGCCCCGT CGAGTTTCAT 
4770 4780 4790 4800 4810 4820 4830 

>< Tru9I 
>< Plel >< EcoNI 
>< Mnll >< BslI 
>< BsmAI >< BsiYI 
>< Mnll >< HphI >< Hinfix Alw26I>< Acil >< Msel 

CTTGACGGTG AGGTTCTTTC ACTTGACAAA CTAAAGAGTC TCTTATCCCT GCGGGAGGTT AAGACTATAA 
4840 4850 4860 4870 4880 4890 4900 

>< Alul >< Ndel 

AAGTGTTCAC AACTGTGGAC AACACTAATC TCCACACACA GCTTGTGGAT ATGTCTATGA CATATGGACA 
4910 4920 4930 4940 4950 4960 4970 

>< SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 

>< Cfrl3I Nlalll >< 

>< BsiZI >< Nlalll 

>< Bmel8I > < Mnll 

>< Avail >< Maelll >< Tru9I >< Mnll 

>< Asul >< Fokl >< Msel >< BspHI 

GCAGTTTGGT CCAACATACT TGGATGGTGC TGATGTTACA AAAATTAAAC CTCATGTAAA TCATGAGGGT" 
4980 4990 5000 5010 5020 5030 5040. 

> < TthHB8I 

>< Rsal > < TaqI 

> < Rmal >< SnaBI >< Seal 

> < Mael >< Maell >< Hindlll >< Rsal 
>< Csp6I >< Ecol05I >< Csp6I 

>< Afal >< BsaAI >< Alul >< Afal 

AAGACTTTCT TTGTACTACC TAGTGATGAC ACACTACGTA GTGAAGCTTT CGAGT AC TAC CATACTCTTG 
5050 5060 5070 5080 5090 5100 5110 

>< Rsal 

>< Nspl 
>< NspHI 
>< Nlalll 

> < Csp6I >< Tru9I Mnll > 

>< Afllll >< Msel BslI >< 

>< Afal >< Dral BsiYI >< 

ATGAGAGTTT TCTTGGTAGG TACATGTCTG CTTTAAACCA CACAAAGAAA TGGAAATTTC CTCAAGTTGG 
5120 5130 5140 5150 5160 5170 * 5180 

>< Tru9I >< Tru9I >< Rmal 

>< Msel >< Msel >< Muni >< Mael Alul > 

TGGTTTAACT TCAATTAAAT GGGCTGATAA CAATTGTTAT TTGTCTAGTG TTTTATTAGC ACTTCAACAG 
5190 5200 5210 5220 5230 5240 5250 

>< SfaNI 

>< Sdul 

>< Nspl I 

>< Eco24I 

>< Bspl286I 

>< Bmyl HphI > 

>< Bbvl Fnu4HI >< 

>< Mnll >< Banll >< BspWI 



FIGURE 13.13 
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CTTGAAGTCA AATTCAATGC ACCAGCACTT CAAGAGGCTT ATTATAGAGC CCGTGCTGGT GATGCTGCTA 
5260 5270 5280 5290 5300 5310 5320 

>< Vnel 
>< Snol 

X Sdul 

>< NspII 

X HgiAI 

X Bspl286I 

>< Bmyl 
>< ApaLI 

X Alw4 4I MboII >< 

X Alw21I >< Aiui >< HphI 

ACTTTTGTGC ACT CA TACT C GCTTACAGTA ATAAAACTGT TGGCGAGCTT GGTGATGTCA GAGAAACTAT 
5330 5340 5350 5360 5370 5380 5390 

> < SphI 

> < Pael 

> < Nspl 

> < NspHI x Tfil >< Tru9I 
>< Sfcl > < Nlalllx Hinfl >< Msel 

GACCCATCTT CTACAGCATG CTAATTTGGA ATCTGCAAAG CGAGTTCTTA ATGTGGTGTG TAAACATTGT 
5400 5410 5420 5430 5440 5450 5460 

X Rsal 

>< Tru9I > < Csp6I Esp4I > 

>< Msel x Alul >< AfaI Aflll > 

GGTCAGAAAA CTACTACCTT AACGGGTGTA GAAGCTGTGA TGTATATGGG TACTCTATCT TATGATAATC 

5470 5480 5490 5500 5510 5520 5530 

x Rsal 

>< MboII 
X RmalHinfl >< 
X Csp6I 

>< Tru91 >< SfaNI >< Mael X Bbsl 

>< Msel >< Nlalll >< A fal 

TTAAGACAGG TGTTTCCATT CCATGTGTGT GTGGTCGTGA TGCTACACAA TATCTAGTAC AACAAG AG T C 
5540 5550 5560 5570 5580 5590 5600 

>< Rsal 

>< p *el > < Ddel x Csp6I 

>< Bsgl >< BspWI X BspMI >< AfaI 

TTCTTTTGTT ATGATGTCTG CACCACCTGC TGAG TAT AAA TTACAGCAAG GTACATTCTT ATGTGCGAAT 
5610 5620 5630 564 0 5650 5660 5670 

x Eco31I 

>< Rsal >< DdeI 

> < Mael 1 1 >< BsmAI 

X Csp6I X Bsal Mnll X 

X AfaI X Bsrl >< Alw26I HphI > 

GAGTACACTG GTAACTATCA GTGTGGTCAT TACACTCATA TAACTGCTAA GGAGACCCTC TATCGTATTG 

5680 5690 5700 5710 5720 5730 5740 

>< SstI x SinI 

>< Sdul >< Sau96I 

X SacI >< NspIV 

x NspII x NspHII 

X HgiAI > < Rsal X Maelll 

X Eco24I >< Eco47I 

>< Ecll36II >< cfrl3I 

X Bspl286I >< BsiZI 

X Bmyl >< Bmel8I 

FIGURE 13. 14 
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>< Banll >< Avail 

>< Alw21I >< Csp6I>< Asul 

>< Alul > < Afal >< Bsrix AlwNI 

ACGGAGCTCA CCTTACAAAG ATGTCAGAGT ACAAAGGACC AGTGACTGAT GTTTTCTACA AGGAAACATC 
5750 5760 5770 5780 5790 5800. 5810 

>< TthHB8I 

>< TaqI >< Maelll 

TTACACTACA ACCATCAAGC CTGTGTCGTA TAAACTCGAT GGAGTTACTT ACACAGAGAT TGAACCAAAA 
5820 5830 5840 5850 5860 5870 5880 

>< Rsal 
>< Csp6I 
>< Sfcl >< Bbvl 
>< Fokl >< Fnu4HI >< Afal 

TTGGATGGGT AT TATAAAAA GGATAATGCT TACTATACAG AGCAGCCTAT AGACCTTGTA CCAACTCAAC 
5890 5900 5910 5920 5930 5940 5950 



> < Nspl 

> < NspHI 

> < Nlalll 
>< Afllll 



Tru9I >< 
Swal X 
Msel >< 
Maml >< 
Dral >< 
BsiBI >< 
BsaBI >< 



CATTACCAAA TGCGAGTTTT GATAATTTCA AACTCACATG TTCTAACACA AAATTTGCTG ATGATTTAAA 
5960 5970 5980 5990 6000 6010 6020 

>< MboII 
>< Alul >< Alulx Maelll 

TCAAATGACA GGCTTCACAA AGCCAGCTTC ACGAGAGCTA TCTGTCACAT TCTTCCCAGA CTTGAATGGC 
6030 6040 6050 6060 6070 6080 6090 

>< Sfcl 

GATGTAGTGG CTATTGACTA TAGACACTAT TCAGCGAGTT TCAAGAAAGG TGCTAAATTA CTGCATAAGC 
6100 6110 6120 6130 6140 6150 6160 



>< Muni 
>< 



>< Tru9I 

>< ScrFI 
>< Mval 
>< Msel 

>< EcoRII 

>< Ecll36I 
>< DsaV 

>< BstOI 
X BstNI 
X BsiLI 
BstXI - X Apyl 



>< Maell 



X 



Maell x 
x Drain 
BstXI 



CAATTGTTTG GC AC AT T AAC CAGGCTACAA CCAAGACAAC GTTCAAACCA AACACTTGGT GTTTACGTTG 
6170 6180 6190 6200 6210 6220 6230 

> < Rsal 

>< Csp6I MboII X 

> < Afalx BsrI >< Bbsl 
TCTTTGGAGT ACAAAGCCAG TAGATACTTC AAATTCATTT GAAGTTCTGG CAGTAGAAGA CACACAAGGA 

6240 6250 6260 6270 6280 6290 6300 

X Hindll >< MboII 

X Hindi >< Mnll >< Eco57I 

ATGGACAATC TTGCTTGTGA AAGTCAACAA CCCACCTCTG AAGAAGTAGT GGAAAATCCT ACCATACAGA 
6310 6320 6330 6340 6350 6360 6370 



FIGURE 13.15 
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>< Maelll >< Tru9I 

>< Maell >< Msel 

AGGAAGTCAT AGAGTGTGAC GTGAAAACTA CCGAAGTTGT AGGCAATGTC ATACTTAAAC CATCAGATGA 
6380 6390 6400 6410 6420 6430 6440 



>< XhoII 
>< Sau3AI 
>< Nlalll 
>< Ndell 
>< Mfll 
>< Mbol 
>< DpnII 

>< Dpnl 
>< BstYI 

>< Tru9I >< BspAI 

>< Msel >< BspHI >< Bspl43l>< Fnu4HI 

> < Maelll >< Mnll >< Bbvl >< Alwl 

AGGTGTTAAA GTAACACAAG AGTTAGGTCA TGAGGATCTT ATGGCTGCTT ATGTGGAAAA C AC AAGCAT T 
6450 6460 6470 - 6480 6490 6500 6510 

>< Saul 
X Rmal 

X Mstll 
x Mael 

x Eco81I 

x Ddel 

>< Cvnl 

X Bsu36I 

>< Bse21I 

>< Bfrl> < Tru9I 

X Tru9I >< Axyl> < Mselx Muni x Nlalll 

X MseX >< Alul X AocI X Dral X Bbvl Fnu4HI x 

AC CAT T AAG A AACCTAATGA GCTTTCACTA GCCTTAGGTT TAAAAACAAT TGCCACTCAT GGTATTGCTG 
6520 6530 6540 6550 6560 6570 6580 

>< Vspl X Styl 

X Tru9I x EcoT14I > < odel 

X Msel X Ecol30I >< BslI 

X Asnl X BssTlI >< BsiYI 

>< Asel X BsaJI > < B frl >< Fnu4HI 

CAATTAATAG TGTTCCTTGG AGTAAAATTT TGGCTTATGT CAAACCATTC TTAGGACAAG CAGCAATTAC 

6590 6600 6610 6620 6630 6640 6650 

X HinPlI 

X Hin6I >< Tru9I 

>< Hhal x Maellx Msel 

>< Ddel >< Dralll 

X Bbvl X Cfol x Afllll 
AACATCAAAT TGCGCTAAGA GATTAGCACA ACGTGTGTTT AACAAT TATA TGCCTTATGT GTTTACATTA 

6660 6670 6680 6690 6700 6710 6720 

>< Rsal > < Rsalx Xbal 

>< Csp6I x Csp6I >< Rmal 

>< Muni x Afal > < Afal >< Mael x Alul 

TTGTTCCAAT TGTGTACTTT TACTAAAAGT ACCAATTCTA GAATTAGAGC TTCACTACCT ACAACTATTG 
6730 6740 6750 6760 6770 6780 6790 

X Vspl 
X Tru9I 
>< Mael 
>< Mspl 

X Msel 



FIGURE 13. 16 
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>< Hpall 
>< HapII 
X CfrlOI >< Fokl 
>< Tru9I >K Asnl 

>< Msel >< SfaNI >< Aselx Hphix Maelll 

CTAAAAATAG TGTTAAGAGT GTTGCTAAAT TATGTTTGGA TGCCGGCATT AATTATGTGA AGTCACCCAA 
6800 6810 6820 6830 6840 6850 6860 

X Tru9I X Ddel Maelll > 

X Msel >< Bfrl X Bbvl 

ATTTTCTAAA TTGTTCACAA TCGCTATGTG GCTATTGTTG TTAAGTATTT GCTTAGGTTC TCTAATCTGT 

6870 6880 6890 6900 6910 6920 6930 

X Sdul 
X NspII 
X HgiAI 

> < Rsal >< Bspl286I 
X Csp6I >< Bmyl 

x Fnu4HI > < Afal >< Alw21I 

GTAACTGCTG CTTTTGGTGT ACTCTTATCT AATTTTGGTG CTCCTTCTTA TTGTAATGGC GTTAGAGAAT 
6940 6950 6960 6970 6980 6990 7000 

Tru9I X 
Msel >< 

X Tru9I > < Maelll >< Fnu4HI 

X Msel x Maell BbvI * 

TGTATCTTAA TTCGTCTAAC GTTACTACTA TGGATTTCTG TGAAGGTTCT TTTCCTTGCA GCATTTGTTT 
7010 7020 7030 7040 7050 7060 7070; 

> < Tfil R sal >< 

X MamI >< H P hI 

> < Hinfl Csp6I X 

X BsiBI >< Xmnix Maelll Alul :>,; 

X PlelX Hinfl X BsaBT >< Alul X Asp700I Afal X 

AAGTGGATTA GACTCCCTTG ATTCTTATCC AGCTCTTGAA ACCATTCAGG TGACGATTTC ATCGTACAAG 
7080 7090 7100 7110 7120 7130 7140 

X Pall 

X NspBII 
x Haelll 
X Gdill 

X Fnu4HI 
x Eael 

>< Ddel 
X BsuRI 

>< Rmal >< BshI X BslI 

X Mael >< Aciix BsiYI 

CTAGACTTGA CAATTTTAGG TCTGGCCGCT GAGTGGGTTT TGGCATATAT GTTGTTCACA AAATTCTTTT 
7150 7160 7170 7180 7190 7200 7210 

x BspMI >< 
>< Alul >< Mael 

ATTTATTAGG TCTTTCAGCT ATAATGCAGG TGTTCTTTGG CTATTTTGCT AGTCAT TTCA TCAGCAATTC 
7220 7230 7240 7250 7260 7270 7280 

Rsal X 
X MboII 
>< NlalV MamI x 

X Eco64I Csp6I X 

> < Rsal >< BscBI BsiBI X 

X Csp6I >< BanI BsaBI >< 

> < Nlalll > < Afaix AccBlI Afal X 

FIGURE 13.17 
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TTGGCTCATG TGGTTTATCA TTAGTATTGT ACAAATGGCA CCCGTTTCTG CAATGGTTAG GATGTACATC 
7290 7300 7310 7320 7330 7340 7350 



>< Fokl 



>< Ndel 
>< Ksp632I 
>< Earl 

>< Eamll04I>< AluIX MboII 



TthHB8I x 

>< TaqI 
Mnll >< 
Ksp632I >< 
>< Fokl 
>< MboII Earl >< 
>< Nlalll Eamll04I >< 



TTCTTTGCTT CTTTCTACTA CATATGGAAG AGCTATGTTC ATATCATGGA TGGTTGCACC TCTTCGACTT 
7360 7370 7380 7390 7400 7410 7420 



> 
> 
> 



>< Thai 
>< Mvnl 
>< HinPlI >< Mlul 

>< Hin6l >< BstUI 

>< Hhal >< BspSOI >< Rsal 

>< Nlalll >< Cfol >< AflHI >< Csp6I X 

X BspWI X BspWI x AccII X Afal X 

GCATGATGTG CTATAAGCGC AATCGTGCCA CACGCGTTGA GTGTACAACT ATTGTTAATG GCATGAAGAG 
7430 7440 7450 7460 7470 7480 7490 



XhoII X 
Sau3AI X 
Nlalll X 

Ndell x 
Mfll X 
Mbol X 
Ksp632I 
Earl 

Eamll04I 
DpnII x 
BstYI >< 
BspAI X 
Bglll X 



Tru9I 
Msel 



X Pall 
x Haelll 

X Dsal >< Muni 

x MboII x BsuRI Maelll X 

><: D P nI >< BshI x Muni BsmAI X 

x Bspl4 3l x Mnll x BsaJI X PlelX Hinfl Alw26l X 

ATCTTTCTAT GTCTATGCAA ATGGAGGCCG TGGCTTCTGC AAGACTCACA ATTGGAATTG TCTCAATTGT 

7500 7510 7520 7530 7540 7550 7560 

>< Rsal Tru9I X 

> < Csp6I Msel x 

>< BsrI >< Gsul X MaelllDral >< 

>< Afal X Bpml > < BsrI 

GACACATTTT GCACTGGTAG TACATTCATT AGTGATGAAG TTGCTCGTGA TTTGTCACTC CAGTTTAAAA 

7570 7580 7590 7600 7610 7620 7630 



>< Thai 
X Mvnl 
> < HphI 
HinPlI X 

X HinPlI 

X Hin6I 
>< Hin6I 
Hhal x 

>< Hhal 
Cfol >< 
>< Cfol 
X BstUI 
>< BssHII 
BspSOI X 

> < BsrI >< AccII 

GACCAATCAA CCCTACTGAC CAGTCATCGT ATATTGTTGA TAGTGTTGCT GTGAAAAATG GCGCGCTTCA 
7640 7650 7660 7670 7680 7690 7700 

FIGURE 13. 18 
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>< Fokl 

>< BsmAI 

>< Mnll >< Alw26I >< Acil 

CCTCTACTTT GACAAGGCTG GTCAAAAGAC CTATGAGAGA CATCCGCTCT CCCATTTTGT CAATTTAGAC 
7710 7720 7730 7740 7750 7760 7770 

>< Vspl 
>< Tru9I 
>< Msel 
>< Asnl 

> < Alul >< Asel >< Bcgl/a 

AATTTGAGAG CTAACAACAC TAAAGGTTCA CTGCCTATTA ATGTCATAGT TTTTGATGGC AAGTCCAAAT 
7780 7790 7800 7810 7820 7830 7840 



>< Plel 

X Hinfl >< Ddel >< Bcgl 



>< Sfcl 
>< Rsal 
>< Csp6I 
>< Afal 



>< PvuII 
>< Psp5I 
>< NspBII 
>< Alul 



GCGACGAGTC TGCTTCTAAG TCTGCTTCTG TGTACTACAG TCAGCTGATG TGCCAACCTA TTCTGTTGCT 



7850 



7860 



7870 



7880 



7890 



7900 



7910 



TthHB8I >< 
TaqI X 
Sail >< 
Rtrl X 

>< Seal Hindll > 

X Rsal >< Tru9I Hindi •> 

>< Csp6I >< SfaNI >< Eco57I 

X Alul X Maell >< Afal >< Msel AccI >< 

TGACCAAGCT CTTGTATCAG ACGTTGGAGA TAGT ACT GAA GTTTCCGTTA AGATGTTTGA TGCTTATGTC 
7920 7930 7940 7950 7960 7970 7980 

>< Tru9I 
>< Msel 

> < Esp4I >< Sfd 

> < Aflll >< BspWI X Alul 
GACACCTTTT CAGCAACTTT TAGTGTTCCT ATGGAAAAAC TTAAGGCACT TGTTGCTACA GCTCACAGCG 

7990 8000 8010 8020 8030 8040 8050 

X PvuII 
X Psp5I 
X NspBII 
X Fnu4HI 

X Alul >< Bbvl X Alul 

AGTTAGCAAA GGGTGTAGCT TTAGATGGTG TCCTTTCTAC ATTCGTGTCA GCTGCCCGAC AAGGTGTTGT 
8060 8070 8080 8090 8100 8110 8120 

Maelll x 

X Hindll >< BsmAI >< Ddel 

x Hindi >< Fokix Alw26I >< Bfrl 

TGATACCGAT GTTGACACAA AGGATGTTAT TGAATGTCTC AAACTTTCAC ATCACTCTGA CTTAGAAGTG 
8130 8140 8150 8160 8170 8180 8190 



X XhoII 
Sau3AI >< 

>< Ndell 
X Mfll 
X Mbol 
X Nlalll X Hgal 
x Hinll >< DpnII 
Dpnl X 



FIGURE 13.19 
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Bspl43I >< 
>< BsaHI >< BstYI 

>< MaelUX HphI >< Bbill >< BspAI 

>< Maelll X HphI X Nlalll >< Acyl >< Bglll 

ACAGGTGACA GTTGTAACAA TTTCATGCTC ACCTATAATA AGGTTGAAAA CATGACGCCC AGAGATCTTG 
8200 8210 8220 8230 8240 8250 8260 



>< Nspl 

X NspHI 

>< Nlalll 
>< HinPlI 
>< Hin6I 
>< Hhal 

>< Cfol >< BspWI >< Maelll 

GCGCATGTAT TGACTGTAAT GCAAGGCATA TCAATGCCCA AGTAGCAAAA AGTCACAATG TTTCACTCAT 
8270 8280 8290 8300 8310 8320 8330 



>< Nspl 
>< NspHI 
>< Nlalll 
>< EamllOSI 

>< Bbvl 
>< AflHI 



>< PvuII 
X PspSI 
>< NspBII 

>< Fnu4HI 
>< Alul X 



Bbvl 



> < Fnu4HI 



CTGGAATGTA AAAGACTACA TGTCTTTATC TGAACAGCTG CGTAAACAAA TTCGTAGTGC TGCCAAGAAG 



8340 



8350 



8360 



8370 



8380 



8390 



8400 



>< Rmal 

>< MboII >< Mael >< Eamll05I 

AACAACATAC CTTTTAGACT AACTTGTGCT ACAACTAGAC AGGTTGTCAA TGTCATAACT ACTAAAATCT 



8410 



8420 



8430 



8440 



8450 



8460 



8470 



>< 



>< 



>< Seal 
>< Rsal 
>< Csp6I 
>< Afal 



BsuRI 
BshI 



>< Tru9I 
>< Msel 

>< Dral >< Aflll >< Bbvl 

CACTCAAGGG TGGTAAGATT G T TAG T AC TT GTTTTAAACT TATGCTTAAG GCCACAT TAT TGTGCGTTCT 
8480 8490 8500 8510 8520 8530 8540 



Tru9I 
>< 
Msel 
>< 

>< Esp4I 
>< 
>< 

>< Aflll 



Pall 



Haelll 



>< Rsal 
>< Csp6I 

>< BsrI >< Nlalll 

>< Fnu4HI >< Afal >< Maelll 

TGCTGCATTG GTTTGTTATA TCGTTATGCC AG T AC AT AC A TTGTCAATCC ATGATGGTTA CACAAATGAA 
8550 8560 8570 8580 8590 8600 8610 

x Maelll 
> < Maelll 

>< Maelll >< Fokl 

ATCATTGGTT ACAAAGCCAT TCAGGATGGT GTCACTCGTG ACATCATTTC TACTGATGAT TGTTTTGCAA 
8620 8630 8640 8650 8660 8670 8680 



Sfcl > 

>< Nspl Fnu4HI >< 

x NspHI x Nlalll Bbvl >< 

>< Nlalll x Hgal X BstXI x Bbvl x Alul 

ATAAACATGC TGGTTTTGAC GCATGGTTTA GCCAGCGTGG TGGTTCATAC AAAAATGACA AAAGCTGCCC 
8690 8700 8710 8720 8730 8740 8750 



FIGURE 13. 20 
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>< ScrFI 
>< ScrFI >< Rsal 

>< Mval >< Mspl 
>< EcoRII >< Hpall 
>< Ecll36I>< Neil 
>< DsaV >< HapII 
>< BstOIX DsaV 
>< BstNI >< Csp6I 

>< Fnu4HI >< BsiLI >< BcnIDdel >< 

>< Alul >< Apyl >< Afal 

TGTAGTAGCT GCTATCATTA CAAGAGAGAT TGGTTTCATA GTGCCTGGCT TACCGGGTAC TGTGCTGAGA 
8760 8770 8780 8790 8800 8810 8820 

> < Maelll >< HphI >< Mnll >< BspWI 

GCAATCAATG GTGACTTCTT GCATTTTCTA CCTCGTGTTT TTAGTGCTGT TGGCAACATT TGCTACACAC 
8830 8840 8850 8860 8870 8880 8890 

Tru9I > 
SfaNI >< 
>< Rsal 
Msel > 

>< BspWI >< Fnu4HI >< Csp6I 

>< Bbvix Mnll >< Ddel >< Afal 

CTTCCAAACT CATTGAGTAT AGTGATTTTG CTACCTCTGC TTGCGTTCTT GCTGCTGAGT GTACAATTTT 
8900 8910 8920 8930 8940 8950 8960 



> < Rmal 
>< Mnll ; 
>< Fokl > < Mael . £ 

TAAGGATGCT ATGGGCAAAC CTGTGCCATA TTGTTATGAC ACTAATTTGC TAGAGGGTTC TATTTCTTA;T 
8970 8980 8990 9000 9010 9020 9030 



>< Alul 



>< 



>< 



NlalV 

>< 
BscBI 



Fokl 



ScrFI > 
Mval > 
Mnll >< 
EcoRII >< 
Ecll36I > 
DsaV >< 
BstOI > 
BstNI > 
BsiLI > 
Apyl > 



AGTGAGCTTC GTCCAGACAC TCGTTATGTG CTTATGGATG GTTCCATCAT ACAGTTTCCT AACACTTACC 



9040 



9050 



9060 



9070 



9080 



9090 



9100 



>< SfaNI 
> < Maelll 
>< Gsul 
>< Bpml 



>< Sfcl 
>< Seal 
>< Rsal 
>< Csp6I 
>< Afal 
>< Ddel >< AccI 



>< Rsal 

>< Nspl 
>< NspHI 
>< Nlalll 
>< Nlalll 
>< Csp6I 
>< Afal 



TGGAGGGTTC TGTTAGAGTA GTAACAACTT TTGATGCTGA GTACTGTAGA CATGGTACAT GCGAAAGGTC 
9110 9120 9130 9140 9150 9160 9170 



>< SstI 
>< Sdul 
>< Sad 
NspII >< 
HgiAI >< 
Eco24I >< 
Bspl286I >< 



FIGURE 13.21 




35/83 



>< BsrI 



>< Tru9I 
>< Msel 



Ecll36II ><>< Brayl 
Banll X 
Alw21I X 

>< Alul 



AGAAGTAGGT ATTTGCCTAT CTACCAGTGG TAGATGGGTT CTTAATAATG AGCATTACAG AGCTCTATCA 



9180 



9190 



9200 



9210 



9220 



9230 



9240 



X Tfil 

>< SfaNI X Hinfl >< Alul x Mnll 

GGAGTTTTCT GTGGTGTTGA TGCGATGAAT CTCATAGCTA ACATCTTTAC TCCTCTTGTG CAACCTGTGG 
9250 9260 9270 9280 9290 9300 9310 

x Maelll 

HphI x 

• >< Eco57I > < Bbvl Fnu4HI X 

GTGCTTTAGA TGTGTCTGCT TCAGTAGTGG CTGGTGGTAT TATTGCCATA TTGGTGACTT GTGCTGCCTA 
9320 9330 9340 9350 9360 9370 9380 



>< Rsal 
>< Csp6I X Nlalll 
x Maell X Bbvl >< Fnu4HI 

x Afllll x AfalX HphI X BspWI 

CTACTTTATG AAATTCAGAC GTGTTTTTGG TGAGTACAAC CATGTTGTTG CTGCTAATGC ACTTTTGTTT 



9390 



9400 



9410 



9420 



9430 



9440 



9450 



X Rsal 
X NlalV 
X Kpnl 

X Eco64I > < ScrFI 

X Csp6I > < Neil 

X BscBI X Mspl 

X Asp718 X Hpall 

X BanI X Alul x Hinfl 

x Afal X HapII X Plel 

X AccBlI > < Bcnl > < Dciel 
>< Acc65I x Alulx DsaV x AccI 
TTGATGTCTT TCACTATACT CTGTCTGGTA CCAGCTTACA GCTTTCTGCC GGGAGTCTAC TCAGTCTTTT 

9460 9470 9480 9490 9500 9510 9520 

x Rsal 
X Csp6I 

X Afal X HphI X HphI Nlalll X 

ACTTGTACTT GACATTCTAT TTCACCAATG ATGTTTCATT CTTGGCTCAC CTTCAATGGT TTGCCATGTT 
9530 9540 9550 9560 9570 9580 9590 

TTCTCCTATT GTGCCTTTTT GGATAACAGC AATCTATGTA TTCTGTATTT CTCTGAAGCA CTGCCATTGG 
9600 9610 9620 9630 9640 9650 9660 



X TthHB8I 
X Rsal 
X Mnll 
>< Mnll 

>< Tru9I X Csp6I 

>< Tru9I X Plel X Bcgl/a >< TaqI 

>< Msel X Ddel X Nlalll >< Bbvl 

X Eco57I >< Bfrl >< Hinfl >< Msel >< Maelll X Afal Fnu4HI >< 
TTCTTTAACA ACTATCTTAG GAAAAGAGTC ATGTTTAATG GAGTTACATT TAGTACCTTC GAGGAGGCTG 
9670 9680 9690 9700 9710 9720 9730 



X Rsal 
>< Csp6I 

>< 



Bcgl 



X Rsal 
x Csp6I 



X BsmAI 



FIGURE 13.22 
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X Afal >< Afal X Alw26I 

CTTTGTGTAC CTTTTTGCTC AACAAGGAAA TGTACCTAAA ATTGCGTAGC GAGACACTGT TGCCACTTAC 
9740 9750 9760 9770 9780 9790 9800 

>< NlalV 
>< Rsal >< Ddel 

>< Csp6I >< BscBI 

>< Afal >< Bfrl Alul >< 

ACAGTATAAC AGGTATCTTG CTCTATATAA CAAGTACAAG TATTTCAGTG GAGCCTTAGA TACTACCAGC 
9810 9820 9830 9840 9850 9860 9870 

X Fnu4HI 

>< Ddel 

>< Fnu4HI >< Bfrl 

>< Bbvl >< Alul >< Bbvl >< Ddel >< AlwNI 

TATCGTGAAG CAGCTTGCTG CCACTTAGCA AAGGCTCTAA ATGACTTTAG CAACTCAGGT GCTGATGTTC 
9880 9890 9900 9910 9920 9930 9940 

>< Sfcl >< BsmI 

>< PstI >< BscCI 

TCTACCAACC ACCACAGACA TCAATCACTT CTGCTGTTCT GCAGAGTGGT TTTAGGAAAA TGGCATTCCC 
9950 ' 9960 9970 9980 9990 10000 10010 

>< Rsal 
X Nlalll 

>< Maelll 

X Csp6I >< Tru9I 

>< Afal >< Msel 

GTCAGGCAAA GTTGAAGGGT GCATGGTACA AGTAACCTGT GGAACTACAA CTCTTAATGG ATTGTGGTTG 
10020 10030 10040 10050 10*060 10070 10080 

XhoII >< 
Sau3AI >< 
X Tru9I Ndell X 
X Nspl Mfll X 

X NspHI Mbol X 

>< Nspl ■>< Nlalll DpnII X 

X Fokl X NspHI X Msel BstYI X 

X Bstll07I X Nlalll X MboII BspAI >< 

X AccI X Afllll > < Bbsl Bglll X 

GATGACACAG TATACTGTCC AAGACATGTC AT T T GCACAG CAGAAGACAT GCTTAATCCT AACTATGAAG 
10090 10100 10110 10120 10130 10140 10150 

Pall > ■ 
Msel > 
Haelll > 
Eael x 
BsuRI > 

>< Dpnl x MboII BshI > 

X Bspl43I X Alul Ball > 

ATCTGCTCAT TCGCAAATCC AACCATAGCT TTCTTGTTCA GGCTGGCAAT GTTCAACTTC GTGTTATTGG 
10160 10170 10180 10190 10200 10210 10220 

>< Ddel> < Tru9I 

x Bfrl> < Msel x Ddel 

CCATTCTATG CAAAATTGTC TGCTTAGGCT TAAAGTTGAT ACTTCTAACC CTAAGACACC CAAGTATAAA 
10230 10240 10250 10260 10270 10280 10290 

>< ScrFI 
X Mval 
X EcoRII 

>< Ecll36I x SphI 

FIGURE 13.23 
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>< DsaV >< pael 

>< BstOI >< Nspl 

>< BstNI >< NspHI 

>< BsiLI >< Rmal >< Nlalll 

>< Apyl >< Mael >< HphI 

TTTGTCCGTA TCCAACCTGG TCAAACATTT TCAGTTCTAG CATGCTACAA TGGTTCACCA TCTGGTGTTT 
10300 10310 10320 10330 10340 10350 10360 



>< Eco31I 
>< BsmAI 

>< Bsalx Nlalll 
>< Alw26I 



>< Tru9l 
>< Msel 



>< Sau3AI 
>< Ndell 
>< Mboix Nlalll 
>< DpnII 
>< Tru9I>< Dpnl 
X Msel X Bspl43I 

>< BspAIX Alwl 



ATCAGTGTGC CATGAGACCT AATCATACCA TTAAAGGTTC TTTCCTTAAT GGATCATGTG GTAGTGTTGG 



10370 



10380 



10390 



10400 



10410 



10420 



10430 



>< Zsp2I 
>< PpulOI 

X NsilX SfaNI 
>< Ndel 

x Mphll03I Rsal >< 

>< Tru9I >< EcoT22I Csp6l >< 

>< Msel > < Avalll x Alul Afal X 

TTTTAACATT GATTATGATT GCGTGTCTTT CTGCTATATG CATCATATGG AGCTTCCAAC AGGAGTACAC 
10440 10450 10460 10470 10480 10490 10500 



X SinI 
X Sau96I 
>< NspIV 

X NspHII >< sfcl 

>< Eco47l Rsal >< 

x Cfrl3I PstI X 

x BsiZI >< Fnu4HI 

>< Rsal >< Bmel8I x Hindll Csp6I >< 

x Csp6I>< Ddel x Avail x Hindi x BspWI 

X Afalx Bfrl x AsuIX Bsgl X Bbvl X BspMI Afal X 
GCTGGTACTG ACTTAGAAGG TAAATTCTAT GGTCCATTTG TTGACAGACA AACTGCACAG GCTGCAGGTA 

10510 10520 10530 10540 10550 10560 10570 



X Tru9I X Nlalll 

>< Msel X Bbvl >< Fnu4HI HphI X 

CAGACACAAC C AT AAC AT TA AATGTTTTGG CATGGCTGTA TGCTGCTGTT ATCAATGGTG ATAGGTGGTT 

10580 10590 10600 10610 10620 10630 10640 

>< Tru9I 

X Tfil 

x Msel >< Rsa i 

>< HphI >< Tru9I >< Csp6I 

X Hinfl >< Msel x Afal 

TCTTAATAGA TTCACCACTA CTTTGAATGA CTTTAACCTT GTGGCAATGA AG TACAACTA TGAACCTTTG 

10650 10660 10670 10680 10690 10700 10710 



X SinI 

>< Sau96I 

>< PssI 
>< PspSII 

X PpuMI 

X NspIV 
X NspHII 
X NlalV 



FIGURE 13. 24 
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>< Sau3AI 
>< Ndell 
>< Mbol 

>< DpnIIX Nlalll 

>< Dpnl >< Hindll 
X BspAl >< Hindi 
>< Bspl43I 



>< 
>< 
X 
>< 



Eco0109I 
Eco47I 
Drall 
Cfrl3I 



>< BsiZI 

>< BscBI 
>< Bmel8I 
X Avail 
>< Asul 



>< Mnll 



>< 
>< 
>< 



Ddel 
Bfrl 
Bbvl 



ACACAAGATC ATGTTGACAT ATTGGGACCT CTTTCTGCTC AAACAGGAAT TGCCGTCTTA GATATGTGTG 
10720 10730 10740 10750 10760 10770 10780 

>< Styl 
>< Rsal 

>< EcoT14I 
>< Ecol30I 
> < Csp6I 

>< BssTlI 
>< BsaJI 
>< Afal 



X Fnu4HI 

>< Bbvl 
X Bbvl 



X Sfcl 
>< Fnu4HI 
>< Fnu4HI 
>< Alul >< PstI 



CTGCTTTGAA AGAGCTGCTG CAGAATGGTA TGAATGGTCG TACTATCCTT GGTAGCACTA T T T T AG AAG A 
10790 10800 10810 10820 10830 10840 10850 

>< Styl 

>< EcoT14I 

>< Ecol30I »-j 

>< BssTlI ; 

>< MboII > < Maellix BsaJI 

TGAGTTTACA CCATTTGATG TTGTTAGACA ATGCTCTGGT GTTACCTTCC AAGGTAAGTT CAAGAAAATT 
10860 10870 10880 10890 10900 10910 10920 

X SfaNI 

> < Sdul 

> < NspII >< Tru9I Rsal >< . 
>< Tru9I> < Bspl28 6I >< Msel >< Tfil Csp6I >< 
x Msel > < Bmyl >< Fokl >< Hinfl Afal X 

GTTAAGGGCA CTCATCATTG GATGCTTTTA ACTTTCTTGA CAT C AC TAT T GATTCTTGTT CAAAGTACAC 
10930 10940 10950 10960 10970 10980 10990 

x XmnI >< Muni 

>< BsmI Fnu4HI > 

X BscCI BspWI >< 

>< Maelll >< Asp700I >< Bbvl Bbvl > 

AGTGGTCACT GTTTTTCTTT GTTTACGAGA ATGCTTTCTT GCC ATT TACT CTTGGTATTA TGGCAATTGC 
11000 11010 11020 11030 11040 11050 11060 



X Nspl 

X NspHI >< Tru9I 

>< Nlalll >< Msel X" BsmI 

X BspWI X Fnu4HIX BspWI >< BscCI >< Maelll 

TGCATGTGCT ATGCTGCTTG TTAAGCATAA GCACGCATTC TTGTGCTTGT TTCTGTTACC TTCTCTTGCA 



11070 



11080 



11090 



11100 



11110 



11120 



11130 



X SfaNI 
>< Rmal 
Nspl 
Nlalll 
X Nhel 
>< Mael 
NspHIX Alul 

ACAGTTGCTT ACTTTAATAT GGTCTACATG CCTGCTAGCT GGGTGATGCG TATCATGACA TGGCTTGAAT 
11140 11150 11160 11170 11180 11190 11200 

FIGURE 13.25 



X BspWI 



X Tru9I 
X Msel 



> < 

> < 



X Accl> < 



X Maml 

X HphI 
X BspHI 
X BsiBI x Nlalll 

x BsaBI X Nlalll 
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>< Tru9I 
>< Msel 

> < Rmal > < Esp4I 

> < Mael >< Eco57I 

>< Alul > < Aflll >< Alul 

TGGCTGACAC TAGCTTGTCT GGTTATAGGC TTAAGGATTG TGTTATGTAT GCTTCAGCTT TAGTTTTGCT 
11210 11220 11230 11240 11250 11260 11270 



>< Rmal 

>< Maell 
>< Mael 

> < Nlalll >< SfaNI >< Fnu4HI 

>< BspHI >< Alul >< Bbvl >< Afllll 

TATTCTCATG ACAGCTCGCA CTGTTTATGA TGATGCTGCT AGACGTGTTT GGACACTGAT GAATGTCATT 
11280 11290 11300 11310 11320 11330 11340 



>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Dpnl 
>< Bspl43I 
>< AccI >< BspAIX Alul 

ACACTTGTTT ACAAAGTCTA CTATGGTAAT GCTTTAGATC AAGCTATTTC CATGTGGGCC TTAGTTATTT 
11350 11360 11370 11380 11390 11400 11410 



>< Sau96I 
>< Pall 
>< NspIV 
>< Nlalll 

>< Haelll 

> < Ddel 
>< Cfrl3I 

>< BsuRI 
>< BsiZI 
X BshI 

> < Bfrl 
>< Asul 



>< Rmal 
>< Nlalll 

>< Maelx Sfcl 

>< Maelll >< Mnll >< Maelll >< AluIX Alul 

CTGTAACCTC TAACTATTCT GGTGTCGTTA CGACTATCAT GTTTTTAGCT AGAGCTATAG TGTTTGTGTG 
11420 11430 11440 11450 11460 11470 11480 



Ddel > 

x BsrI >< Nlalll Bfrl > 

TGTTGAGTAT TACCCATTGT TAT T TAT T AC TGGCAACACC T TACAGTGT A TCATGCTTGT TTATTGTTTC 
11490 11500 11510 11520 11530 11540 11550 

X Pall 
x Haelll 
>< Fnu4HI X BsuRI 
>< Bbvl >< Fnu4HI >< BspWI 

X Bbvl >< BspWI x BshI X Eco57I X Maelll 

TTAGGCTATT GTTGCTGCTG CTACTTTGGC CTTTTCTGTT TACTCAACCG TTACTTCAGG CTTACTCTTG 
11560 11570 11580 11590 11600 11610 11620 



X Eco31I 
X BsmAI 
>< Bsal 



X ScrFI 
X Mval 

X EcoRII 

X Ecll36I 

X DsaV 

X BstOI 
X BstNI 
X BsiLI 
> < BsaJI 

X BsaJI 



FIGURE 13. 26 
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>< DrdI >< Alw2 6I >< Apyl Ddel >< 

GTGTTTATGA CTACTTGGTC TCTACACAAG AATTTAGGTA TATGAACTCC CAGGGGCTTT TGCCTCCTAA 
11630 11640 11650 11660 11670 11680 11690 

>< Tru9I 
>< Msel 

>< SfaNI > < HindIII> < Tru9I 

>< Mnll >< Alul > < Msel > < Mnll > < Nlalll 

GAGTAGTATT GATGCTTTCA AGCTTAACAT TAAGTTGTTG GGTATTGGAG GTAAACCATG TATCAAGGTT 
11700 11710 11720 11730 11740 11750 11760 

>< Vnel 
>< Snol 

>< Sdul 
>< NspII 
>< HgiAI 
>< Bspl286I 
>< Bmyl >< Rsal 
>< Rsal >< ApaLI >< MboII 

X Csp6I >< Alw4 4I >< Csp6I Ddel > 

>< Afal >< Maell >< Alw21I >< Afal Bfrl > 

GCTACTGTAC AGTCTAAAAT GTCTGACGTA AAGTGCACAT CTGTGGTACT GCTCTCGGTT CTTCAACAAC 
11770 11780 11790 11800 11810 11820 11830 

X NspII> < Rsal 

>< Drain 
>< Sdulx Csp6I 
>< MboII >< Bspl286I 

X Hinfl >< Plel >< Bmyl > < Afal >< MboII 

TTAGAGTAGA GTCATCTTCT AAAT.TGTGGG CACAATGTGT ACAACTCCAC AATGATATTC TTCTTGCAAA 
11840 11850 11860 11870 11880 11890 11900 

X TthHB8I 

X TaqI Sfcl >< 

X Hindlll >< MboII >< Nlalll 

x Alul > < Eco57I X BspWI AccI X 

AGACACAACT GAAGCTTTCG AGAAGATGGT TTCTCTTTTG TCTGTTTTGC TATCCATGCA GGGTGCTGTA 
11910 11920 11930 11940 11950 11960 11970 



x Vspl 
X Tru9I 
X Msel 
>< Asnl 

x Aseix Mnll >< Bcgl/a 



> < Ksp632I 
x TthHB8I > < Earl 

X TaqI X MboII > < Eamll04I 

X Eco57I >< Eco57I x Bcgl 



GACATTAATA GGTTGTGCGA GGAAATGCTC GATAACCGTG CTACTCTTCA GGCTATTGCT TCAGAATTTA 
11980 11990 12000 12010 12020 12030 12040 



X StuI 
X ScrFI 

x Pall 
X Mvalx Haelll 
X EcoRIIX Ecol47I 

X Ecll36I 
X DsaV X BsuRI 
X BstOI 
X BstNI 

X BspWI 
X BsiLI 

x Fnu4HI >< BsaJI x BshI 

X Ndel >< BspWIX Mnll X Bgll 

X Acil >< ApylX AatI 



Tfil X 
X Sfcl Hinfl x 
> < Alul 



FIGURE 13. 27 
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GTTCTTTACC ATCATATGCC GCTTATGCCA CTGCCCAGGA GGCCTATGAG CAGGCTGTAG CTAATGGTGA 
12050 12060 12070 12080 12090 12100 ' 12110 

>< XmnI >< Tru9I >< sfaNI 

>< HphI >< Msel >< Ddel 

X Asp700I >< Eco57I >< B bvl Fnu4HI X 

TTCTGAAGTC GTTCTCAAAA AGTTAAAGAA ATCTTTGAAT GTGGCTAAAT CTGAGTTTGA CCGTGATGCT 
12120 12130 12140 12150 12160 12170 12180 

XhoII >< 
Sau3AI >< 
Ndell >< 

Mnll > 
>< Mnll 
>< Mfll 

> < Sau3AI >< MboI 

> < Ndell DpnII >< 

> < MboI Dpnl >< 

> < DpnII DdeI >< 

>< Dpnl BstYI >< 

>< BspWI >< RsalBspAI X 

> < BspAI >< Csp6IBspl4 3I X 
>< Nlalll >< Bspl43I >< AfalBglll X 

GCCATGCAAC GCAAGTTGGA AAAGATGGCA GATCAGGCTA TGACCCAAAT GTACAAACAG GCAAGATCTG 
12190 12200 12210 12220 12230 12240 12250 

y< s P eI X Ksp632I > < Hindlll 

X Rmal >< DdeI >< sfaNI 

X Maelll >< MboII x Eamll04I X BspWI 

x Mael x BspWI >< Earlx Bfrl x Alul 

AGGACAAGAG GGCAAAAGTA ACTAGTGCTA TGCAAACAAT GCTCTTCACT ATGCTTAGGA AGCTTGATAA 
12260 12270 12280 12290 12300 12310 12320 

>< Thai 

>< Mvnl 
X HinPlI 
>< Hin6I 

X Hhal 

X Cfol 

>< BstUI 

X Tru9I >< Bsp50I 

>< Msel >< AccII SfcI >< 

TGATGCACTT AACAACATTA TCAACAATGC GCGTGATGGT TGTGTTCCAC TCAACATCAT ACCATTGACT 
12330 12340 12350 12360 12370 12380 12390 

>< Rsal 
X NlalV 
x Eco64I 
>< Csp6I 
X BslI 

>< BsiyiX Kpnl 
X BscBI 
>< BanI 
X Asp718 

>< Nlalll x Afal 

>< BstXI x AccBlI >< Maelll 

X Fnu4HI X Bbvl >< Acc65I Bsgl >< 

ACAGCAGCCA AACTCATGGT TGTTGTCCCT GATTATGGTA CCTACAAGAA CACTTGTGAT GGTAACACCT 
12400 12410 12420 12430 12440 12450 12460 

>< Zsp2I 
X PpulOl 

FIGURE 13. 28 
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>< Nsil 

>< Mphll03I DdeI >K 

>< Ndeix EcoT22I 

Aval II >< SfaNI >< SfaNI >< AcxI Bfrl >< 

TTACATATGC StCTGCACTC TGGGAAATCC AGCAAGTTGT TGATGCGGAT AGCAAGATTG TTCAACTTAG 
12470 12480 12490 12500 12510 12520 l^JU 

>< Pall 

>< Haelll >< Mnll >< DdelDdel >< 
>< Tru9I>< Nlalll >< BsuRI X Maelll >< BspWI 

x MselX HphI > < XcmIX BshI >< Alul BspWI X 

TGAAATTAAC ATGGACAATT CACCAAATTT GGCTTGGCCT CTTATTGTTA CAGCTCTAAG AGCCAACTCA 
12540 12550 12560 12570 12580 12590 12600 

Rsal >< 
NlalV X 
Kpnl X 
>< Fnu4HI 
Eco64I >< 
Csp6I X 
BscBI X 

><Tru9I 8 ><: 

>< Pvu " Afal >< 

>< Psp5I ><; AciI>< BanI 

>< N X B MseI >< Hinfl >< Plel AccBlI >< 

>< Alul > < Sfcl >< Ddeix BsrI >< PshAI Acc65I X 

GCTgSaAAC TACAGAATAA TGAACTGAGT CCAGTAGCAC TACGACAGAT GTCCTGTGCG GCTGGTACQA 
12610 12620 12630 12640 12650 12660 12670 

X TthHB8I ^ 
>< TaqI ,v 

X Sful ^ 

>< NspV 
X Mnll 
>< Lspl 
>< Csp4 5I 
X BstBI 

>< Rsal >< BspllM 

X Csp6I >< Bsi " T 

X Alul >< B P Ul l I 



x Afal 



>< AsuII 



CACAAACAGC TTGTACTGAT GACAATGCAC TTGCCTACTA TAACAATTCG AAGGGAGGTA GGTTTGTGCT 
12680 12690 12700 12710 12720 12730 12740 

X XhoII 
x Sau3AI 
X Ndell 

X MflX - ... - . 

X Mbol 
X DpnII 
X Dpnl 

X BstYI X Tfil >< Rsal 

x BspAI >< Ritial >< Csp6I 

>< Bspl43I >< Hinfl >< Csp6I>< Rsal 

X Bglll >< Mael X DdeI >< Afaix Afal 

GGCATTACTA TCAGACCACC AAGATCTCAA ATGGGCTAGA TTCCCTAAGA GTGATGGTAC AGGTACAATT 
12750 12760 12770 12780 12790 12800 12810 

X Sau96I 

X PssI 
x Pall 
>< NspIV 

FIGURE 13.29 




43/83 



>< Haelll 
>< Eco0109I 
>< Drall 
>< Cfrl3I 

>< BsuRI 

>< NlalV >< BsiZI 

>< BsrI >< BshI 

>< BscBI > < Maelll >< Asul 

TACACAGAAC TGGAACCACC TTGTAGGTTT GTTACAGACA CACCAAAAGG GCCTAAAGTG AAATACTTGT 
12820 12830 12840 12850 12860 12870 12880 



Rsal > 
Csp6I >< 
Afal > 



>< Sfcl 

> < MboII 
Maell >< 
>< Fnu4HI >< Rsal 
>< Eco57I >< Csp6I 
>< Tru9I > < Bbsl 

>< Msel X Mnll >< Bbvl >< Alul >< Afal 

ACTTCATCAA AGGCTTAAAC AACCTAAATA GAGGTATGGT GCTGGGCAGT TTAGCTGCTA CAGTACGTCT 
12890 12900 12910 12920 12930 12940 12950 

>< Rsal 
>< Sfcl >< Csp6I 
>< BspWI >< Afal >< BspMI AccI >< 

TCAGGCTGGA AATGCTACAG AAGTACCTGC CAATTCAACT GTGCTTTCCT TCTGTGCTTT TGCAGTAGAC 
12960 12970 12980 12990 13000 13010 13020 



>< Rmal 

>< Mnll 
>< Mael >< HphI 

CCTGCTAAAG CATATAAGGA TTACCTAGCA AGTGGAGGAC AACCAATCAC CAACTGTGTG AAGATGTTGT 



13030 



13040 



13050 



13060 



13070 



13080 



13090 



>< SinI 
X Sau96I 
>< NspIV 

X NspHII 
>< Nlalll 
>< Eco47I 

>< Eamll05I 
>< Cfrl3I 

>< Rsal >< Rsal >< BsiZI 

>< MboII >< Csp6I >< Bmel8I 

X Csp6I >< BsrI >< Avail 

>< Afal X Afal >< Maelll >< Alul >< Asul> < 

GTACACACAC TGGTACAGGA CAGGCAATTA CTGTAACACC AGAAGCTAAC ATGGACCAAG AGTCCTTTGG 
13100 13110 13120 13130 13140 13150 13160 



>< Xcml 
Plel >< 
Hinfl 



X Tfil 

x SfaNI >< Maelll 

X Nlalll x Fokl >< Hinfl 

TGGTGCTTCA TGTTGTCTGT ATTGTAGATG CCACATTGAC CATCCAAATC CTAAAGGATT CTGTGACTTG 
13170 13180 13190 13200 13210 13220 13230 

> < Rsal 
X Maell 

>< Csp6I >< DdeI 

> < Afal >< BsrI x Bfrl 
AAAGGTAAGT ACGTCCAAAT ACCTACCACT TGTGCTAATG ACCCAGTGGG TTTTACACTT AGAAACACAG 

13240 13250 13260 13270 13280 13290 13300 



FIGURE 13.30 



x Thai 
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X SfaNI 
>< Mvnl 
>< BstUI 

>< Rsal X BspSOI 

>< Csp6l >< Acil 

>< Afal >< Acil >< Sfcl >< Maelll >< AccIISfaNI >< 

TCTGTACCGT CTGCGGAATG TGGAAAGGTT ATGGCTGTAG TTGTGACCAA CTCCGCGAAC CCTTGATGCA 
13310 13320 13330 13340 13350 13360 13370 



X Zsp2I 

> < SfaNI 
>< Mphll03I>< Tru9I 
>< PpulOlX Maell Fnu4HI >< 

>< Nsil> < Fokl Bsgl >< 

>< EcoT22I >< Msel >< Bbvl 

>< Acilx Avalll x Dral >< Acil X Fnu4HI Acil >< 

GTCTGCGGAT GCATCAACGT TTTTAAACGG GTTTGCGGTG TAAGTGCAGC CCGTCTTACA CCGTGCGGCA 
13380 13390 13400 13410 13420 13430 134 40 



>< Spel 

>< Seal 

>< Rsal 
X Rjnal 
>< Ma el 

> < Csp6I X Sfcl >< BspWI 

X BspWI x Afal X AccI X Bcgl/a Bcgl f > 

CAGGCACTAG TACTGATGTC GTCTACAGGG CTTTTGATAT TTACAACGAA AAAGTTGCTG GTTTTGCAAA 
13450 13460 13470 13480 13490 13500 13510 

X ScrFI 
X Mval 

x Mnll 
>< EcoRII 
X Ecll36I 
X BstOI 
X BstNI 

>< BslI 
>< DsaV X BsiYI 

>< BsiLI >< Plel 

>< Apyl > < Fokl X Hinfl 

GTTCCTAAAA ACTAATTGCT GTCGCTTCCA GGAGAAGGAT GAGGAAGGCA ATTTATTAGA CTCTTACTTT 
13520 13530 13540 13550 13560 13570 13580 



X Nlalll 
X Ksp632I 
>< Earl 

x Tru9I x Eamll04I 

- >< Msel - ■• -- >< BsmAI x -Tru9I 

X Mnll X Alw26I X MboII X Msel 

GTAGTTAAGA GGCATACTAT GTCTAACTAC CAACATGAAG AGACTATTTA TAACTTGGTT AAAGATTGTC 
13590 13600 13610 13620 13630 13640 13650 



X Rsal 
x NlalV 

> < Nlalll 

X Kpnl 
>< HphI 

> < Eco64I 
X Csp6I 

X BscBI 

> < BanI 

> < Asp718 



FIGURE 13.31 
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>< Maelll >< Afal 
>< NspBII > < AccBlI Maell >< 

>< Acil X Nlalll > < Acc65I > < Hgal 

CAGCGGTTGC TGTCCATGAC TTTTTCAAGT T T AGAGT AG A TGGTGACATG GTACCACATA TATCACGTCA 
13660 13670 13680 13690 13700 13710 13720 

>< Mnll 
>< Maell 

GCGTCTAACT AAATACACAA TGGCTGATTT AGTCTATGCT CTACGTCATT TTGATGAGGG TAATTGTGAT 
13730 13740 13750 13760 13770 13780 13790 



>< Tru9I 

>< Msel >< Maelll X Muni 

ACATTAAAAG AAATACTCGT CACATACAAT TGCTGTGATG ATGATTATTT CAATAAGAAG GATTGGTATG 



13800 



13810 



13820 



13830 



13840 



13850 



138 60 



>< Thai 
>< Mvnl 
>< Mlul 

>< BstUI X Rsal 

>< BspSOI >< HphI 

>< Tfil >< AflHI >< Ddel >< Csp6I Tru9I >< 

>< Hinfl >< AccII >< Bfrl >< Afal Msel >< 
ACTTCGTAGA GAATCCTGAC ATCTTACGCG T AT ATGCTAA CTTAGGTGAG CGTGTACGCC AAT CAT TAT T 

13870 13880 13890 13900 13910 13920 13930 



> < SfaNI 
>< Rsal 
>< Csp6I 
>< Afal 



>< 



>< SfaNI 



>< Rsal 
> < Csp6I 
BspWI 

>< Afal 



XhoII 
Sau3AI 
Ndell 
Mfll 
Mbol 
DpnII 
BstYI 
BspAI 



AAAGACTGTA CAATTCTGCG ATGCTATGCG TGATGCAGGC ATTGTAGGCG TACTGACATT AG AT AAT CAG 



13940 



13950 



13960 



13970 



13980 



13990 



14000 



>< Tru9I 
>< Msel 
>< Dpnl 
X Bspl4 3I 

X Alwl 



X Rsal 
X Csp6I 
X BsrI 
x Afal 



x Rsal 

> < HphI 
X Csp6I 

> < Bbvl 
X Afal 



> < ScrFI 

> < Mval 

x Fnu4HI 
X EcoRII 

> < Ecll36I 
BstOI 
BstNI 

X BslI 
>< BsiYI 
BsiLI 
Apyl 



> 
> 



> 
> 



X DsaV X Acil 



GATCTTAATG GGAACTGGTA CGATTTCGGT GATTTCGTAC AAGTAGCACC AGGCTGCGGA GTTCCTATTG 
14010 14020 14030 14040 14050 14060 14070 



>< Tfil 
X Hinfl 



X SfaNI 
X Fokl 



x MamI 
X BsiBI 
>< BsaBI 



>< Rmal 
X Mnll 
>< Mael 
x Bbvl 



>< SfaNI 
> < Hinfl 
X Fnu4HIPleI X 
X Ddel 
>< BspWI Ndel x 



TGGATTCATA TTACTCATTG CTGATGCCCA TCCTCACTTT GACTAGGGCA TTGGCTGCTG AGTCCCATAT 
14080 14090 14100 14110 14120 14130 14140 



x Sau3AI 
x Ndell 



FIGURE 13.32 
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>< Mbol 
>< MamI 
>< DpnII 
>< Dpnl 
. X BspWI 
>< BspAI 

>< Bspl43I 
>< BsiBI 

>< BsaBI >< Fokl 



>< Xcml 
>< Tru9I 
>< Msel 



Tthllll >< 
Mbol I >< 
>< Ksp632I 
>< Eamll04I 

>< BsmAI 
>< Earl Aspl >< 
>< Alw26I 



GGATGCTGAT CTCGCAAAAC CACTTATTAA GTGGGATTTG CTGAAATATG ATTTTACGGA AGAGAGACTT 



14150 



14160 



14170 



14180 



14190 



14200 



14210 



>< 



>< TthHB8I 
>< TaqI 

>< Mcrl 

> < Ksp632I 

> < Earl 

> < Eamll04I 
>< BsmAI > 

MboII >< BsiEI> 
>< Alw26I 



>< 
> 
> 
> 



< SinI 

< Sau96I 

< NspIV 
X NspHII 
>< NlalV 
Fokl 

< Eco47I 

< Cfrl3I 

< BsiZI 



>< SspIX BscBI 

< Tru9I > < Bmel8I 

< Msel > < Avail 
X Dral > < Asul 



>< Muni 



x 

X 



Tru9I 
Msel 



TGTCTCTTCG ACCGTTATTT TAAATATTGG GACCAGACAT ACCATCCCAA TTGTATTAAC TGTTTGGATG 
14220 14230 14240 14250 14260 14270 14280 

SinI X 
Sau96I x 
NspIV x 
NspHII > 
Eco47I >< 
Cfrl3I x 
BsiZI X 
Bmel8I >< 

>< Tru9I Avail X 

X Fokl X Msel Asul X 

ATAGGTGTAT CCTTCATTGT GCAAACTTTA ATGTGTTATT TTCTACTGTG TTTCCACCTA CAAGTTTTGG 
14290 14300 14310 14320 14330 14340 14350 

x Spel 
x Rmal 

x Mael >< Sspl X BsrI 

ACCACTAGTA AGAAAAATAT TTGTAGATGG TGTTCCTTTT GTTGTTTCAA CTGGATACCA TTTTCGTGAG 
14360 14370 14380 14390 14400 14410 14420 

• " ■ X ThalX Esp3I ' 

X Ddel 
X BstUI 

X BspSOI X BsmBI 
>< MvnlX BsmAI 
X HgalX Alul >< Alw26I 

X Fokl X AccII > < Bbvl 



x Rsal 
X Hinfl X Plel 
> < Csp6I 
X Afal 



TTAGGAGTCG TACATAATCA GG AT GTAAAC TTACATAGCT CGCGTCTCAG TTTCAAGGAA CTTTTAGTGT 
14430 14440 14450 14460 14470 14480 14490 



X Zsp2I 
X SphI 
X PpulOI 

x Pael 
x Nspl 



FIGURE 13.33 
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>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
> < Dpnl 
X Fnu4HIX BspWI 
>< BspAI 



>< NspHI 
>< Nsil 

>< Nlalll 
>< Mphll03I 

>< Fnu4HI 
>< EcoT22I 
>< BspWI 



> < Bspl4 3I> < Avalll > < AlwNI X Rmal 

><* Alwl >< Alul >< Alul >< Bbvl >< Mael 



X Nspl 
NspHI >< 
Nlalll >< 

>< BspWI 
>< Bsgl 
>< Bbvl 



ATGCTGCTGA TCCAGCTATG CATGCAGCTT CTGGCAATTT ATTGCTAGAT AAACGCACTA CATGCTTTTC 



14500 



14510 



14520 



14530 



14540 



14550 



14560 



>< ScrFI 
>< Neil 
>< Mspl 
>< Hpall 

>< Fnu4HI >< HapII 

>< AlwNI >< DsaV >< Tru9I 

>< Alul >< Bcnl >< Msel 

AGTAGCTGCA CTAACAAACA ATGTTGCTTT TCAAACTGTC AAACCCGGTA ATTTTAATAA AGACTTTTAT 

14570 14580 14590 14600 14610 14620 14630 

>< Tru9I Ddel >< 

>< Msel >< MboII Bbvl >< 

GACTTTGCTG TGTCTAAAGG TTTCTTTAAG GAAGGAAGTT CTGTTGAACT AAAACACTTC TTCTTTGCTC 

14640 14650 14660 14670 14680 14690 14700 

>< Fokl EcoRV >< 

>< Fnu4HI Eco32I >< 

AGGATGGCAA CGCTGCTATC AGTGATTATG ACTATTATCG TTATAATCTG CCAACAATGT GTGATATCAG 

14710 14720 14730 14740 14750 14760 14770 



>< Vspl 
>< Tru9I 
X Msel 
>< Asnl 

>< Maelll >< Asel 

ACAACTCCTA TTCGTAGTTG AAGTTGTTGA TAAAT ACT T T GATTGTTACG ATGGTGGCTG TATTAATGCC 
14780 14790 14800 14810 14820 14830 14840 



>< Tru9I 

>< Msel 
>< Hpal 
>< Hindll 
>< Hindi 



>< Pvull 
>< PspSI 
>< NspBII 
>< Alul 



>< 
>< 



> < Xcml 

Tru9I 

Msel 



Rmal >< 
Mael >< 



AACCAAGTAA TCGTTAACAA TCTGGATAAA TCAGCTGGTT TCCCATTTAA TAAAT GGGGT AAGGCTAGAC 



14850 



14860 



14870 



14880 



14890 



14900 



14910 



X SfaNI 

>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 
>< Dpnl 

>< Plel X Bspl43I 

X HinfIX Mnll X BspAI X Alwl 
TTTATTATGA CTCAATGAGT TATGAGGATC AAGATGCACT TTTCGCGTAT ACTAAGCGTA ATGTCATCCC 
14920 14930 14940 14950 14960 14970 14980 



x Thai 
X Mvnl 
X BstUI 

X Bstll07I 
X BspWI X Fokl 
X Bsp50I 
X Accllx Ddel 
X AccI 



X SstI 
X Sdul 
>< SacI 



FIGURE 13.34 
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X Tru9I 
>< Tfil 

X Msel 
>< Hinfl 

> < Esp4I 

> < Aflll >< BspWI 
TACTATAACT CAAATGAATC TTAAGTATGC CATTAGTGCA AAGAATAGAG CTCGCACCGT AGCTGGTGTC 

14990 15000 15010 15020 15030 15040 15050 



X NspII 
X HgiAI 
X Eco24I 
< EC1136II 
>< Bspl286I 
>< Bmyl 
>< Banll 
>< Alw21I 



> < Alul 



>< Alul 



>< Seal 
>< Sfcix Rsal 
>< BsmAI X Csp6I 
X Alw26I X Afal 



Rmal X 
> < Mnll 

Mael X 
X Fnu4HI 
X Acil 



TCTATCTGTA GTACTATGAC AAATAGACAG TTTCATCAGA AATTATTGAA GTCAATAGCC GCCACTAGAG 
15060 15070 15080 15090 15100 15110 15120 

X Tru9I 

>< Alul >< MseI 

GAGCTACTGT GGTAATTGGA ACAAGCAAGT TTTACGGTGG CTGGCATAAT ATGTTAAAAA CTGTTTACAG 
15130 15140 15150 15160 15170 15180 15190 

Nispl >< 
NspHI X 
Nlalll X 
>< Nlalll 

JDdel x 
BspWI- X 
>< Maelll Bfrl >< 

TGATGTAGAA ACTCCACACC TTATGGGTTG GG ATT AT CCA AAATGTGACA GAGCCATGCC TAACATGCTT 
15200 15210 15220 15230 15240 15250 15260 



> < Pall 

> < Haelll 

> < BsuRI 

> < BshI X Mnll x Maelll Sfcl X 
AGGATAATGG CCTCTCTTGT TCTTGCTCGC AAACATAACA CTTGCTGTAA C T T AT C AC AC CGTTTCTACA 



15270 



15280 



15290 



15300 



15310 



15320 



15330 



Tru9I >< 

ScrFI > 
Mval > 
>< Msel 

>< MstI Fokl X 

>< HinPlI - - EcoRII X 

X Hin6I EC1136I > 

> < Hhal DsaV X 
X Fspl BstOI > 
X Fdill X Nlalll BstNI > 

> < CfoIX Tru9I > < Fnu4HI BsiLI > 
x Alul >< Avill >< Msel >< Acil Apyl > 

GGTTAGCTAA CGAGTGTGCG CAAGTATTAA GTGAGATGGT CATGTGTGGC GGCTCACTAT ATGTTAAACC 
15340 15350 15360 15370 15380 15390 15400 



> < SfaNI 

x Mspl 
x Hpall 
x HapII 



>< HphI 
>< BspWI 



x Tru9I 
X Msel 



Maelll X 
Alul X 



FIGURE 13.35 
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AGGTGGAACA TCATCCGGTG ATGCTACAAC TGCTTATGCT AATAGTGTCT TTAACATTTG TCAAGCTGTT 
15410 15420 15430 15440 15450 15460 15470 

>< DrdI 

>< BspWI >< Alul > < Acil 

ACAGCCAATG TAAATGCACT TCTTTCAACT GATGGTAATA AGATAGCTGA CAAGTATGTC CGCAATCTAC 
15480 15490 15500 15510 15520 15530 15540 



>< Sfcl 
>< BsmAI 
>< Alw26I 



>< Sau3AI 
>< Ndell 
>< Mbol 

< MamI 

>< Fbal 
>< DpnII 

>< Dpnl 
>< BspHI 
>< BspAI 

>< Bspl43l 
>< BsiQI 

< BsiBlX Nlalll 

< BsaBlx Fokl 
X Bel IX EcoRI 



Fokl X 



AACACAGGCT CTATGAGTGT CTCTATAGAA ATAGGGATGT TGATCATGAA TTCGTGGATG AGTTTTACGC 
15550 15560 15570 15580 15590 15600 15610 



X Tfil 

X SfaNI 
x Nlalll 

x BspMI x Hinfl >< Maelll 

TTACCTGCGT AAACATTTCT CGATGAT GAT TCTTTCTGAT GATGCCGTTG TGTGCTATAA CAGTAACTAT 
15620 15630 15640 15650 15660 15670 15680 

> < Rmal 
>< Nhel x Tru9I 
X Fnu4HI > < Mael X Tru9I 

>< Acil x Alul X Msel X Msel Mnll X 

GCGGCTCAAG GTTTAGTAGC TAGCATTAAG AACTTTAAGG CAGTTCTTTA TTATCAAAAT AATGTGTTCA 
15690 15700 15710 15720 15730 15740 15750 



X Nlalll 
X Ddel 



>< Ddel 
X BsmAI 
>< Alw26I 



X SinI 
>< Sau96I 

>< PssI 

X Psp5II 
>< PpuMI 
>< NspIV 

X NspHII 
X Eco0109I 
X Eco47I 
X Drall 
X Cfrl3I 
>< BsiZI 
>< Bmel8I 
x Avail 
x Asul 



X Mnll 



TGTCTGAGGC AAAATGTTGG ACTGAGACTG ACCTTACTAA AGGACCTCAC GAATTTTGCT CACAGCATAC 
15760 15770 15780 15790 15800 15810 15820 



>< XhoII 
>< Sau3AI 
X Ndell 
>< Mfll 
X Mbol 



FIGURE 13. 36 
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>< Tru9I 
>< Rmal 
>< Mael 
>< BspWIX Msel 



>< Rsal 
>< Maell 

>< Csp6I 
>< BsaAI 
X Afllll 

>< Afal 



>< DpnII 

>< Dpnl 
>< BstYI 
>< BspMI 

>< BspAI 
X AlwlX Bspl43I 



> < Sspl 
HinPlI >< 
Hin6I >< 
Hhal >< 
Cfol X 



AATGCTAGTT AAACAAGGAG ATGATTACGT GTACCTGCCT TACCCAGATC CATCAAGAAT ATTAGGCGCA 
15830 15840 15850 15860 15870 15880 15890 

>< Rsal >< SfaNI 

>< TthHB8I >< Csp6I >< Maelll 

>< Taq i X Afal BsrI >< 

GGCTGTTTTG TCGATGATAT TGTCAAAACA GATGGTACAC TTATGATTGA AAGGTTCGTG TCACTGGCTA 
15900 15910 15920 15930 15940 15950 15960 

> < Fokl 
X BspWI 

TTGATGCTTA CCCACTTACA AAACATCCTA ATCAG GAGT A TGCTGATGTC TTTCACTTGT ATTTACAATA 
15970 15980 15990 16000 16010 16020 16030 

X Van91I 
X PflMI 
X Nspl 
Pallx NspHI 
MscIX Nlalll 
Haelll 



> 
> 
> 
> 



X Nspl 
X NspHI 



i 



BsuRI 
x BsrI 
>< Eael >< BslI 
> < Bshix BsiYI 
X Nlalll >< Afllll X Afllll 

X Maelll >< Alul > < BallX AccB7I >< Nlalll 

CAT T AG AAAG TTACATGATG AGCTTACTGG CCACATGTTG GACATGTATT CCGTAATGCT AACTAATGAT 
16040 16050 16060 16070 16080 16090 16100 

x Rsal> < NlalV 
X Mnll 

X Csp6I >< Ddel >< Rsal 

X BsrI >< Mnll >< Csp6I 

X Afal> < BscBI >< Afal Sfcl X 
AACACCTCAC GGTACTGGGA ACCTGAGTTT TATGAGGCTA TGTACACACC ACATACAGTC TTGCAGGCTG 

16110 16120 16130 16140 16150 16160 16170 

X NlalV 

x EcoNI 
X Eco31I 
X Eco64I>< BsmAI 
... ...... >< BscBI x BslI 

x BanI >< BsiYI 
X Acil >< Bsal 

X BspWI >< AccBlIX Alw26I Bbvl X 

TAGGTGCTTG TGTATTGTGC AATTCACAGA CTTCACTTCG TTGCGGTGCC TGTATTAGGA GACCATTCCT 
16180 16190 16200 16210 16220 16230 16240 

X Tthllll 

x Fnu4HI X Nlalll > < Tru9I 

X BspWI X Aspl > < M sel 

ATGTTGCAAG TGCTGCTATG ACCATGTCAT TTCAACATCA CACAAATTAG TGTTGTCTGT TAATCCCTAT 
16250 16260 16270 16280 16290 16300 16310 

X ScrFI 
X Mval 



FIGURE 13.37 
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>< EcoRII 

X Ecll36I 
X DsaV 

>< BstOI 

>< BstNI 

>< BsiLI >< Rmal 

>< BsaJI >< Mnll BspWI X 

>< Apyl >< Maelll >< Maelll >< Mael >< Alul 

GTTTGCAATG CCCCAGGTTG TGATGTCACT GATGTGACAC AACTGTATCT AGGAGGTATG AGCTATTATT 
16320 16330 16340 16350 16360 16370 16380 

>< Maelll >< Mnll 

GCAAGTCACA TAAGCCTCCC ATTAGTTTTC CATTATGTGC TAATGGTCAG GTTTTTGGTT TATACAAAAA 
16390 16400 16410 16420 16430 16440 16450 

>< Nspl >< Nspl 

>< NspHI > < Tthllll >< NspHI 

>< Nlallix Maelllx Maelll X Nlalll 

x Afllll x Aspl X AflHI 

CACATGTGTA GGCAGTGACA ATGTCACTGA CTTCAATGCG ATAGCAACAT GTGATTGGAC TAATGCTGGC 
16460 16470 16480 16490 16500 16510 16520 

>< Rsal 
X Plel 
X Ddel 
x Csp6I 

x BsmAI x Hinfl >< Mnll 

>< Alw26I x Hindlll Ddel X 

>< Afal X Alul >< Fnu4HI X Bbvl 

GAT T AC AT AC TTGCCAACAC TTGTACTGAG AGACTCAAGC TTTTCGCAGC AGAAACGCTC AAAGCCACTG 
16530 16540 16550 16560 16570 16580 16590 

> < Thai 

x Seal 
>< Rsal >< Rsal 

> < Mvnl 

x Csp6I >< Csp6I 

> < BstUI 

> < Tru9I > < BspSOI 

> < Msel > < Ndel >< Afal X Afal 

X Alul > < AccII Mnll > 

AGGAAACATT TAAGCTGTCA TATGGTATTG CCACTGTACG CGAAGTACTC TCTGACAGAG AATTGCATCT 
16600 16610 16620 16630 16640 16650 16660 

Maelll X 
x Maelll 
>< Eco0651 
>< Eco91I 
X BstPI 

x SfaNI x Rmal >< BstEII 

x Nlalll x Mael X BsrI 

TTCATGGGAG GTTGGAAAAC CTAGACCACC ATTGAACAGA AACTATGTCT TTACTGGTTA CCGTGTAACT 
16670 16680 16690 16700 16710 16720 16730 

Rsal x 
X Mnll 

X Rsal x Rsal >< HphI 

X Csp6I X Csp6I x SfaNI Csp6I X 

X Afal x Afal >< Maelll x HphI Afal x 

AAAAATAGTA AAGTACAGAT TGGAGAGTAC ACCTTTGAAA AAGGTGACTA TGGTGATGCT GTTGTGTACA 
16740 16750 16760 16770 16780 16790 16800 



FIGURE 13. 38 
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>< Rsal >< HphI 

>< Csp6I >< Hindll Ddel >< 

x Afal >< Hindi Bfrl >< 

GAGGTACTAC GACATACAAG TTGAATGTTG GTGATTACTT TGTGTTGACA TCTCACACTG TAATGCCACT 

16810 16820 16830 16840 16850 16860 16870 



>< Vnel 
>< Snol 

>< Sdul 

>< NspII 

>< HgiAI 
>< Drain 

>< Bspl286I 

>< Bmyl 
>< ApaLI >< Rmal 
>< Alw4 4I >< Mael 

>< Alw21I 



>< 



> < 

> < 

> < 
BspWI 

> < 

> < 

> < 



Sdul 

NspII 

HgiAI 

>< Drain 
Bspl286I 
Bmyl 
Alw21I 



>< 



>< Rsal 
>< Csp6I 
BsrI 

>< Afal 



Ddel > 



TAGTGCACCT ACTCTAGTGC CACAAGAGCA CTATGTGAGA ATTACTGGCT TGTACCCAAC ACTCAACATC 
16880 16890 16900 16910 16920 16930 16940 



Styl >< 

SinI > 
Sau96I > 
NspIV > 
EcoT14I >< 

Eco4 7I > 
Ecol30I >< 
>< Seal Cfrl3I > 
BssTlI >< . 
>< SphI >< Rsal BsiZF > 
>< Pael BsaJI >< 

>< Nlalll Bmel8I > 

>< Rmal >< NspIX Csp6I Avail > 

x Mael >< NspHIx Afal Asul > 

TCAGATGAGT TTTCTAGCAA TGTTGCAAAT TATCAAAAGG TCGGCATGCA AAAGTACTCT ACACTCCAAG 
16950 16960 16970 16980 16990 17000 17010 



X ScrFI 

x Rsal 
>< Mval 
>< EcoRII 
X Ecll36I 

> < Csp6I 
X BstOI 
X BstNI 
>< Xcml X BslI 
X NspHII X BsiYI 

X BsiLI ' " 

>< Apyl >< BsrI 
>< DsaVX Afal > < Hinflx Plel 
GACCACCTGG TACTGGTAAG AGTCATTTTG CCATCGGACT TGCTCTCTAT TACCCATCTG CTCGCATAGT 
17020 17030 17040 17050 17060 17070 17080 



x SfaNI 

>< SphI x PvuII 

X Pael >< PspSI 

>< Nspl >< NspBII 

X NspHI >< Fnu4HI > < Tru9I 

X Bstll07I > < NlalllX BspWI X Sspl 

>< AccI >< Nlalll x Alul >< Bbvl > < Msel 

GTATACGGCA TGCTCTCATG CAGCTGTTGA TGCCCTATGT GAAAAGGCAT TAAAATATTT GCCCATAGAT 

17090 17100 17110 17120 17130 17140 17150 

FIGURE 13.39 
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>< 



>< 



> < Thai 
Thai 

> < Mvnl 
Mvnl >< Thai 

> < HinPlI 
>< HinPlI 

>< HinPlI X Mvnl 

> < Hin6I 
>< Hin6I 

> < Hhal 
Hhal >< Hhal 

> < Cfol 
Cfol >< Cfol 

> < BstUI 
BstUI >< BstUI 

>< BssHII 
>< BspMI 

> < BspSOI 

>< BspSOIX BspSOI Rmal > 

>< Hin6I> < AccII Mael > 

>< AccII >< AccII > < EcoRI 

AAATGTAGTA GAATCATACC TGCGCGTGCG CGCGTAGAGT GTTTTGATAA ATTCAAAGTG AATTCAACAC 
17160 17170 17180 17190 17200 17210 17220 



>< 



>< 



>< 



>< 
>< 



Tfil 
Hinfl 



>< Zsp2I 
>< PpulOI 

X Nsil 

>< Mphll03I 

>< EcoT22I 

>< Bsgl > < Avalll >< DrdI 

TAGAACAGTA TGTTTTCTGC ACTGTAAATG CATTGCCAGA AACAACTGCT GACATTGTAG TCTTTGATGA 
17230 17240 17250 17260 17270 17280 17290 



>< Rmal 

>< Mael >< Maell 

AATCTCTATG GCTACTAATT ATGACTTGAG TGTTGTCAAT GCTAGACTTC GTGCAAAACA CTACGTCTAT 
17300 17310 17320 17330 17340 17350 17360 



>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Dpnl 

>< BspAI >< Rmal 

>< AlwIX Bspl43I > < Acil >< Mael Sspl >< 

ATTGGCGATC CTGCTCAATT ACCAGCCCCC CGCACATTGC TGACTAAAGG CACACTAGAA CCAGAATATT 

17370 17380 17390 17400 17410 17420 17430 



>< Tru9I 
>< Msel 



>< SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 
>< Bsgl 
>< Bmel8I 
>< Avail 
>< Asul> < 



>< Styl 

>< Nspl 

X NspHI 

X Nlalll 

X EcoT14I 
X Ecol30I 
X BssTlI 
X BsaJI 
Afllll 



TTAATTCAGT GTGCAGACTT ATGAAAACAA TAGGTCCAGA CATGTTCCTT GGAACTTGTC GCCGTTGTCC 
17440 17450 17460 17470 17480 17490 17500 



FIGURE 13. 40 
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>< Hindll 

>< Hindi >< Ai u j 

TGCTGAAATT GTTGACACTG TGAGTGCTTT AGTTTATGAC AATAAGCTAA AAGCACACAA GGATAAGTCA 
17510 17520 17530 17540 17550 17560 17570 

>< Alul ><c NlaIII 

GCTCAATGCT TCAAAATGTT CTACAAAGGT GTTATTACAC ATGATGTTTC ATCTGCAATC AACAGACCTC 
17580 17590 17600 17610 17620 17630 17640 

>< Mnll 
>< EcoNI 
>< BslI 

>< BsiYI Al^"^ 1 
AAATAGGCGT TGTAAGAGAA TTTCTTACAC GCAATCCTGC TTGGAGAAAA GCTGTOTTTA TCTCACCTTA 
17650 17660 17670 17680 17690 17700 17710 

>< Sf d >< Ddel >< TfiI 

> < Alul >< Bfrl >< R-in-FT 

TAATTCACAG AACGCTGTAG CTTCAAAAAT CTTAGGATTG CCTACGCAGA CTGTTGATTC ATCACAGGGT 
17720 17730 17740 17750 17760 17770 1 778 0 

>< Tthllll * I " ind " 

X Aspl > K Hin ClI 

TCTGAATATG ACTATGTCAT ATTCACACAA ACTACTGAAA CAGCACACTC TTGTAATGTC AACCG^^A 
x//yu 17800 17810 17820 17830 17840 . 17850 

>< XhoII 
>< Sau3AI 
>< Ndell _ 
>< Mfll 7 
>< Mbol - 
>< Maml 
>< DpnII 

>< Dpnl 
>< BstYI 
>< BspAI 

>< Bspl43l 
>< BsiBI 
>< BsaBI 

>< BspWI >< RnlTT 

ftTGTGGCTAT c™c* ™„ T AATGTCTGAT w*gri aT „J 

>< Xbal 
>< Rmal 

>< Mael x Ma ell - - >< Ma g" y< 

GCAATTTACA AGTCTAGAAA TACCACGTCG CAATGTGGCT ACATTACAAG CAGAAAATGT AA^GGACTT 



17950 



17960 



17970 



17980 



17990 



>< Tru9I 

>< Mselx Sfcl 



>< Sau3AI 
>< Ndell 

>< MboII 
>< Mbol 

> < Fokl 
>< DpnII 

>< Dpnl 
>< BspAI 

>< Bspl4 3I 

>< Bbsl > < BsrI 



>< NlalV 
>< Eco64I 

>< BscBI 
>< BanI 
>< AccBlI 



Mnll >< 
>< Ddel 



FIGURE 13. 41 
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TTTAAGGACT GTAGTAAGAT CATTACTGGT CTTCATCCTA CACAGGCACC TACACACCTC AGCGTTGATA 
18000 18010 18020 18030 18040 18050 18060 

>< ScrFI 
>< Mval 
>< EcoRII 
>< Eco57I 

>< Ecll36I 
X DsaV 
>< BstOI 
>< BstNI 
X HindllX BsiLI 
>< HincIIX Apyl 



>< Plel 
X Nlalll 

Hinfl >< 
AccI >< 



TAAAGTTCAA G ACT GAAGG A TTATGTGTTG ACATACCAGG CATACCAAAG GACATGACCT ACCGTAGACT 

18070 18080 18090 18100 18110 18120 18130 

x Maelll Thai X 

X Eco0651 Mvnl >< 

X Eco91I BstUI X 

X BstXI BspSOI X 

X BstPI >< Acil 

X BstEII >< HphI AccII X 
CATCTCTATG ATGGGTTTCA AAATGAATTA CCAAGTCAAT GGTTACCCTA ATATGTTTAT CACCCGCGAA 

18140 18150 18160 18170 18180 18190 18200 



>< XmnI rtje? _ 

> < MboII >< SfaNI 

> < Maelll >K RmaI 
x Asp700I >< NlaI11 

X Alul x Maell >< Mnll >< Mael 

GAAGCTATTC GTCACGTTCG TGCGTGGATT GGCTTTGATG TAGAGGGCTG TCATGCAACT AGAGATGCTG 

18210 18220 18230 18240 18250 18260 



18270 



X Rsal 
X Gsul 

X Csp6I 
X Bpml 
x Afal 



>< RmaI 

X Mnll 
X Mael 
x Alul 



X Tru9I 

X Msel 
X Hpal 
X Hindll 
>< Hindi 



x Sfcl 



X Rsal 
X Csp6I 
x Ddel X Alul BsrI X 
x Bfrl >< Afal 



TGGGTACTAA CCTACCTCTC CAG CTAGG AT TTTCTACAGG TGTTAACTTA GTAGCTGTAC CGACTGGTTA 
18280 18290 18300 18310 18320 18330 18340 

>< ScrFI 
>< Mval 

X Mnll 
X Maelll 
X EcoRII 

X Eco0651 
X EcoNI 

X Eco91I 
X Ecll36I 
>< DsaV Tru9I >< 
X Dralll 
X BstPI 
X BstOI 

>< BstNI Pmel X 
X BstEII 
>< BslI Msel X 
>< BsiYI HphI X 
x BsiLI Dral >< 
>< Apyl X BsrI 



x Hindll 
X Hindi 



>< 



HphI 

X EcoRI 



X Tru9I 
X Msel 

FIGURE 13.42 
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TGTTGACACT GAAAATAACA CAGAATTCAC CAGAGTTAAT GCAAAACCTC CACCAGGTGA CCAGTTTAAA 
18350 18360 18370 18380 18390 18400 18410 

>< ScrFI 
>< Mval 
>< EcoRII 

X Ecll36I 
X DsaV 
>< BstOI 
>< BstNI 
>< BsiLI 
>< BsaJI 
>< Nlalll >< Apyl 

CATCTTATAC CACTCATGTA TAAAGGCTTG CCCTGGAATG TAGTGCGTAT TAAGATAGTA CAAATGCTCA 
18420 18430 18440 18450 18460 18470 18480 



>< Rsal 
Ddel 

> < Tru9I>< Csp6I 

> < Msel >< Afal 



>< 



>< Nlalll 
>< HinPlI 
>< Hin6I 
> < Hhal 



>< Tthllll 
>< Hinfl 

>< Aspl >< Plel > < Cfol >< Alul 

GTGATACACT GAAAGGATTG TCAGACAGAG TCGTGTTCGT CCTTTGGGCG CATGGCTTTG AGCTTACATC 



18490 



18500 



X Seal 
>< Rsal 
>< Csp6I 
>< Afal 



18510 

X SinI 
>< Sau96I 
>< NspIV 

>< NspHII 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 
>< Bmel8I 
X Avail 
>< Asul 



18520 



18530 



18540 



18-550 



>< Maell 

>< Afllll >< Maellix Maell 
aatgaagtac'tttgtcaaga TTGGACCTGA AAGAACGTGT tgtctgtgtg acaaacgtgc aacttgcttt 
18560 18570 18580 18590 18600 18610 18620 



> < Tfil >< Tthllll 

> < Hinfl > < Aspl 

TCTACTTCAT CAGATACTTA TGCCTGCTGG AATCATTCTG TGGGTTTTGA CTATGTCTAT AACC CAT TT A 
18630 18640 18650 18660 18670 18680 18690 

X ScrFI 
Rsal X 
X Mval 
x EcoRII 
Ecll36I X 

X DsaV 
Csp6I X 

BstXI X 
X BstOI 
X BstNI 
X BsiLI 
X Apyl 
Afal >< 



18700 



18710 



> 


< Maelll 






> 


< Eco0651 






> 


< Eco91I 






> 


< BstPI 






X Eco57I> 


< BstEII 


>< Maelll 


X Nlalll 


GGCTTTACGG 


GTAACCTTCA 


GAGTAACCAT 


GACCAACATT 


18720 


18730 


18740 


18750 



18760 



X SfaNI 
X Rmal 
X Nspl 
X NspHI 
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>< Nlalll >< Rmal 

>< Mael >< Nlalll Tru9I >< 

>< Nlalll >< BspWI >< Mael >< Nlalll 

> < AflHI >< BspHI Msel X 

TGGAAATGCA CATGTGGCTA GTTGTGATGC TATCATGACT AGATGTTTAG CAGTCCATGA GTGCTTTGTT 
18770 18780 18790 18800 18810 18820 18830 

X Thai 

X Mvnl 
>< HinPlI 
X Hin6I 

>< Hhal 

>< Cfol 

X BstUI >< EcoNI> < Mnll 

X Bsp50I >< BslI >< Tru9I 

x AccII >< BsiYI >< Ddel x Msel 

AAGCGCGTTG ATTGGTCTGT TGAATACCCT ATTATAGGAG ATGAACTGAG GGTTAATTCT GCTTGCAGAA 
18840 18850 18860 18870 18880 18890 18900 

>< Rsal 

>< Csp6I >< MboII > < Nlalll 

>< Afal x Nlalll x BspWI x BsrI x BspHI 

AAGTACAACA CATGGTTGTG AAGTCTGCAT TGCTTGCTGA TAAGTTTCCA GTTCTTCATG ACATTGGAAA 
18910 18920 18930 18940 18950 18960 18970 

X Saul 
x Mstll 
X Eco81I 

>< Ddel Nlalll X 

>< Cvnl >< Espl 

x Bsu3 6l >< Eco57I Maelll >< 

>< Bse21I >< Ddel 

x Axyl >< celll 

>< AocI X Mnll X SfaNI x Bpull02I 

TCCAAAGGCT ATCAAGTGTG TGCCTCAGGC TGAAGTAGAA TGGAAGTTCT ACGATGCTCA GCCATGTAGT 

18980 18990 19000 19010 19020 19030 19040 

>< Mnll >< Ksp632I 

x Hindlll >< Earl 

X Alul X MboII X Eamll04I 

GACAAAGCTT ACAAAATAGA GGAACTCTTC TATTCTTATG CTACACATCA CGATAAATTC ACTGATGGTG 
19050 19060 19070 19080 19090 19100 19110 

>< Sau3AI 
X Ndell 
>< Mbol 
>< MaeII> < Maelll 
X DpnII 
>< Dpnl 

X BspAI Hinfl > 

X Maelll X Bspl4 3I x Muni DrdI X 

TTTGTTTGTT TTGGAATTGT AACGTTGATC GTTACCCAGC CAATGCAATT GTGTGTAGGT TTGACACAAG 
19120 19130 19140 19150 19160 19170 19180 

Zsp2I X 

>< SphI 
> < PpulOI 
>< Pael 
>< Nspl 

>< ScrFI >< NspHI 

><: Mv a* x Nlalll 

X EcoRII Mphll03I X 

FTHTmR H44 
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>< EC1136I >< Gsul 

>< DsaV EcoT22I >< 

>< BstOI >< BsmI 

>< BstNI >< BscCI 

X BsiLI >< Bpml >< Nsil 

>< Plel >< Apyl >< Avalll 
AGTCTTGTCA AACTTGAACT TACCAGGCTG TGATGGTGGT AGTTTGTATG TGAATAAGCA TGCATTCCAC 

19190 19200 19210 19220 19230 19240 19250 

>< Tru9I 

> < Muni 

>< TthHB8I >< Msel 

>< Bcgl/a >< Taql >< Dral 

X Alul >< Bcgl 

ACTCCAGCTT TCGATAAAAG TGCATTTACT AATTTAAAGC AATTGCCTTT CTTTTACTAT TCTGATAGTC 
19260 19270 19280 19290 19300 19310 19320 

>< Plel SfaNI >< 

x Nlalll >< Maell 

X BsmAI BsaAI X 

X Hinfix Alw26I Afllll >< 

CTTGTGAGTC TCATGGCAAA CAAGTAGTGT CGGATATTGA TTATGTTCCA CTCAAATCTG CTACGTGTAT 

19330 19340 19350 19360 19370 19380 19390 

Zsp2I > 
>< Seal 

PpulOI X 
>< RsaINs.il > 
Mphll03I > 
X SfaNIEcoT22I > 
> < Rsal X Csp6I 
X Csp6I Avalll x 

X NlaIII> < Afal >< Afal 
TACACGATGC AATTTAGGTG GTGCTGTTTG CAGACACCAT GCAAATGAGT ACCGACAGTA CTTGGATGCA 
19400 19410 19420 19430 19440 19450 19460 

X Fokl 

TATAATATGA TGATTTCTGC TGGATTTAGC CTATGGATTT ACAAACAATT T GAT ACT TAT AACCTGTGGA 
19470 19480 19490 19500 19510 19520 19530 

X ScrFI 

X Mval 

X Maelll 
x EcoRII 

X Ecll36I 
X DsaV 

X BstOI 

>< BstNI 

X BsiLI >< Tru9I 

x'Apyl X Msel 

ATACATTTAC CAGGTTACAG AGTTTAGAAA ATGTGGCTTA TAATGTTGTT AATAAAGGAC ACTTTGATGG 
19540 19550 19560 19570 19580 19590 19600 

X SgrAI 
x Nael 

X Mspl' > < Vspl 

X Hpall > < Tru9I 

x HapII > < Msel 

X CfrlOI > < Asnl 

X BspWI > < Asel 
ACACGCCGGC GAAGCACCTG TTTCCATCAT TAATAATGCT GTTTACACAA AGGTAGATGG TATTGATGTG 

19610 19620 19630 19640 19650 19660 19670 

FIGURE 13. 45 
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>< XhoII 
>< Sau3AI 
>< Ndell 
. >< Mfll 
>< Mbol 
>< DpnII 

>< DpnI >< Maelll 

>K BstYI >< Espl 

> \?£ A1 lil „ >< DdeITru9l >< 

» t >K Tru91 >< CelllMsel >< 

>< Bglll >< MseI ><: AluI >K Q 11Q2I 

GAGATCTTTG AAAATAAGAC AACACTTCCT GTTAATGTTG CATTTGAGCT TTGGGCTAAG CGTAACATTA 
19680 19690 19700 19710 19720 19730 19740 

>< Fnu4HI 

>< Tru9I >< EcoRV 

>< BsrI >< MseI >< Bbvl >< Eco32I 

AACCAGTGCC AGAGATTAAG ATACTCAATA ATTTGGGTGT TGATATCGCT GCTAATACTG TAATCTGGGA 
19750 19760 19770 19780 19790 19800 19810 

>< Nspl 
>< NspHI 
X Nlalll 
X Bsgl 
X Afllll 

CTACAAAAGA GAAGCCCCAG CACATGTATC TACAATAGGT GTCTGCACAA TGACTGACAT TGCCAAGAAA 
19820 19830 19840 19850 19860 19870 19880 

X DdelX Mbol I >K AccI 

CCTACTGAGA GTGCTTGTTC TTCACTTACT GTCTTGTTTG ATGGTAGAGT GGAAGGACAG GTAGACCTTT 
19890 19900 19910 19920 19930 19940 19950 



SinI x 
Sau96I x 
NspIV >< 
NspHI I X 
NlalV X 
Eco47I >< 
Cfrl3I >< 

X BslI 
BsiZI X 

X BsiYI 
BscBI >< 
Bmel8I >< 

>< Tru91 Avail X 

X MseI Asul X 

TTAGAAACGC CCGTAATGGT GTTTTAATAA CAGAAGGTTC AGTCAAAGGT CTAACACCTT CAAAGGGACC 
19960 19970 19980 19990 20000 20010 20020 

X Vspl 
X Tru 91 
X Plel 
X MseI 
>< Maelll 

>< Asnl >< Tfil 
X HinfIX Asel X Hinfl 



>< Rmal 
>< Nhel 
X Mael 
>< tfgalx AluI 



Tru9I >< 
>< Tru9I 

MseI X 
>< MseI 



AGCACAAGCT AGCGTCAATG GAGTCACATT AATTGGAGAA TCAGTAAAAA CACAGTTTAA CTACTTTAAG 
20030 20040 20050 20060 20070 20080 20090 



>< Ddel >< MnlT Tru9I >< 
>< BsmAI >< Ddel 



FIGURE 13.46 
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X AccI >< Alw26I >< BfrlMsel X 

AAAGTAGACG GCATTATTCA ACAGTTGCCT GAAACCTACT TTACTCAGAG CAGAGACTTA GAGGATTTTA 
20100 20110 20120 20130 20140 20150 20160 



>< Xcml 
>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 

>< Dpnl 
>< BspAI 

>< Bspl43I 



>< 
X 



TthHB8I 
Taql 

>< SstI 

>< Sdul Xhol >< 

>< Sad TthHB8I > 

> < PaeR7I Taql > 

> < NspIII Slal X 
>< NspII PaeR7I >< 
>< HgiAI NspIII >< 

> < Eco88I >< Mnll 

> < XhoIX Eco24I Eco88I >< 
>< Ecll36II Ccrl >< 

> < SlalX Bspl286I BspWI >< 

> < Ccrix Bmyl Bcol >< 

> < BcoIX Banll > < Bcgl/a 

> < Ama87I Aval >< 

> < AvalX Alw21I Ama87I X 
X Alul >< EcoRI >< FoklAluI >< 

AGCCCAGATC ACAAATGGAA ACTGACTTTC TCGAGCTCGC TATG GATGAA TTCATACAGC GATATAAGCT 

20170 20180 20190 20200 20210 20220 20230 



X TthHB8I 
X Taql 
>< Sful 
X NspV 
X Lspl 
X Csp4 5l 

X BstBI £ 
X Bspll9I 

X BsiCI >< MboII 

>< Bpul4I >< Bbsl Tru9I >< 

X AsuII >< Bcgl >< Nlalll >< AcilMsel X 

CGAGGGCTAT GCCTTCGAAC ACATCGTTTA TGGAGATTTC AGTCATGGAC AACTTGGCGG TCTTCATTTA 
20240 20250 20260 20270 20280 20290 20300 



X Espl 
>< Ddel 
X Celll >< 
X Bpull02I > 
X Bfrl 



x HphI 
X HinPlI 
X Hin6I 

> < Hhal >< Tfil 
x Haell 
Eco47III 
< Cfol >< Hinfl 
X Bspl43II 



X Tru9I 
>< Msel 
X Mnll 



ATGATAGGCT TAGCCAAGCG CTCACAAGAT- TCACCACTTA AATTAGAGGA TTTTATCCCT ATGGACAGCA 



20310 



20320 



20330 



20340 



20350 



20360 



20370 



X SfaNI 



>< MstI 
X HinPlI 
X Hin6I 
>< Hhal 
X Fspl 
X Fdill 
X Cfol 
X Avill 



Sau3AI X 
Ndell x 
Mbol x 
DpnII X 

Dpnl x 
BspAI >< 
Bspl4 3I >< 



CAGTGAAAAA TTACTTCATA ACAGATGCGC AAACAGGTTC AT CAAAATG T GTGTGTTCTG TGATTGATCT 
20380 20390 20400 20410 20420 20430 20440 



X TthHB8I 



FIGURE 13.4 7 
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>< Tthllll 
>< TaqI 

>< Aspl > < Maelll Maelll >< 

TTTACTTGAT GACTTTGTCG AGATAATAAA GTCACAAGAT TTGTCAGTGA TTTCAAAAGT GGTCAAGGTT 
20450 20460 20470 20480 20490 20500 20510 

>< Nspl 
>< NspHI 
X Nlalll 
>< Eokl 

X Muni > < Nlalll >< Afllll 

ACAATTGACT ATGCTGAAAT TTCATTCATG CTTTGGTGTA AGGATGGACA TGTTGAAACC TTCTACCCAA 
20520 20530 20540 20550 20560 20570 20580 

>< SfaNI 

>< ScrFI 

>< Mval 
>< EcoRII 

>< Ecll36I 
>< DsaV 

>< BstOI >< SfaNI 

>< BstNI >< Rsal BspWI >< 

>< BsiLI > < Csp6I BsmI > 

>< BspWI >< Apyl >< Afal BscCI X 

AACTACAAGC AAGTCAAGCG TGGCAACCAG GTGTTGCGAT GCCTAACTTG TACAAGATGC AAAGAATGCT 
20590 20600 20610 20620 20630 20640 20650 

>< Eco57I >< Maelll x HphI 

TCTTGAAAAG TGTGACCTTC AGAATTATGG TGAAAATGCT GTTATACCAA AAGGAATAAT GATGAATGTC 
20660 20670 20680 20690 20700 20710 20720 

> < Rsal 
>< Csp6I 

>< Bstll07I >< Tru9I >< Alul 

>< AccI >< Msel > < AfalNlalll >< 

GCAAAGTATA CTCAACTGTG TCAATACTTA AATACACTTA CTTTAGCTGT ACCCTACAAC ATGAGAGTTA 
20730 20740 20750 20760 20770 20780 20790 

>< ScrFI 

>< Rsal 
>< Mval 
>< EcoRII X NspBII 

>< Ecll36I >< Sdul 

> < Csp6I X NspII 

X BstOI X PvuIlX HgiAI 
X BstNI X Ddel 

X BsiLI X Psp5I>< Bspl286l 
X Apyl X Alul X Bmyl 
x DsaVX Afal x Alw21I 

TTCACTTTGG TGCTGGCTCT GATAAAGGAG TTGCACCAGG TACAGCTGTG CTCAGACAAT GGTTGCCAAC 
20800 20810 20820 20830 20840 20850 20860 

X XhoII 

X Tru9I 
X Sau3AI 
x Ndell 
X TthHB8I X Msel 
X Mfll 
X Mbol 
X MamI 
X DpnII 
X Tfil X Dpnl 

FIGURE 13. 48 
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>< BstYI 
>< BspAI 
>< HinfIX Bspl43I 

>< BsiBI 

>< BsaBI 



> < Tfil 

> < Hinfl 
X Esp3I 

>< Tthllll >< BsmBI 
>< BsmAI 



>< Tru9I 
>< Msel 
> < BsmAI 
< Alw26I 



X BsrI >< TaqI X Bglll X Aspl >< Alw26I >< Hgal> 

TGGCACACTA CTTGTCGATT CAGATCTTAA TGACTTCGTC TCCGACGCAG ATTCTACTTT AATTGGAGAC 
20870 20880 20890 20900 20910 20920 20930 



>< Rsal 
> < Csp6I 
>< Afal 



> 
> 
> 
> 
> 

> 
> 
> 



>< Styl 

>< SinI 
>< Sau96I 

< SinI >< Rmal 

< Sau96I >< NspIV 

>< PssI NspHII >< 

>< Psp5II >< Mael 

< PpuMI >< EcoT14I 

< NspIV >< Eco47I 
>< NspHII >< Ecol30I 

>< NlalV >< Cfrl3I 

< EcoO109I >< BssTlI 

< Eco47I >< BsiZI 

< Drall >< BsaJI 

< Cfrl3I >< Bmel8I 

< BsiZI >< Blnl 
>< BscBI X Avrll 

< Bmel8I >< Avail 

< Avail >< Asul 

< Asul AflllT. X 
TTAGCGATAT GTATGACCCT AGGACCAAAC 

20980 20990 21000 



TGTGCAACAG TACATACGGC TAATAAATGG GACCTTATTA 
20940 20950 20960 20970 

>< Nspl 
>< NspHI 

>< Nlalll >< Plel Rmal >< 

>< Maelll >< Hinfl Mael >< 

ATGTGACAAA AGAGAATGAC TCTAAAGAAG GGTTTTTCAC TTATCTGTGT GGATTTATAA AGCAAAAACT 

21010 21020 21030 21040 21050 21060 21070 

>< ScrFI 
>< Mval 
>< EcoRII 

>< Ecll36I 
x DsaV 
X BstOI 
X BstNI 
x BsiLI 
X BsaJI 
x BsaJI 
X Apyl 



x BsmI 



Sau96I 
NspIV 
Cfrl3I 
BsiZI 
Asul 



>< Sfcl >< BsmI 

> < Alul X BscCI >< BscCIHindlll XX Alul 

AGCCCTGGGT GGTTCTATAG CTGTAAAGAT AACAGAGCAT TCTTGGAATG CTGACCTTTA CAAGCTTATG 
21080 21090 21100 21110 21120 21130 21140 

X Zsp2I 
>< PpulOI 

x Pall >< Nsil 

>< Haelll >< Mphll03I Tru9I X 

>< BsuRI X Maelll x EcoT22I x Msel 

>< BshI x Nlalllx Alul >< Bcgl X Avalll X SfaNIBcgl/a X 

GGCCATTTCT CATGGTGGAC AGCTTTTGTT ACAAATGTAA ATGCATCATC ATCGGAAGCA TTTTTAATTG 
21150 21160 21170 21180 21190 21200 - 21210 



FIGURE 13.49 
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>< Zsp2I 
>< SphI 
>< PpulOI 

>< Pael 
>< Nspl 
>< NspHI 

>< Nsil 

>< Nlalll 

> < Nlalll 

>< Mphll03I 
>< EcoT22I 

> < Avalll >< Mnll 
GGGCTAACTA TCTTGGCAAG CCGAAGGAAC AAATTGATGG CTATACCATG CATGCTAACT ACATTTTCTG 

21220 21230 21240 21250 21260 21270 21280 

Tru9I >< 

>< MboII >< Tru9I 

>< Gsul Msel >< 

>< BsrI >< Msel 

>< Bpml Mnll >< 

>< Bbsl >< Nlalll X Mnll 

GAGGAACACA AATCCTATCC AGTTGTCTTC CTATTCACTC TTTGACATGA GCAAATTTCC TCT TAAATTA 

21290 21300 21310 21320 21330 21340 21350 

>< Tru9I 
>< MseX 
>< Esp4I> < Tfil 

. X BsmAI Ksp632I >< 

>< Alw26I X MboII >< Earl 

X AflII> < Hinfl Eamll04I >< 

AGAGGAACTG CTGTAATGTC TCTTAAGGAG AATCAfiATCA ATGATATGAT TTATTCTCTT CTGGAAAAAG 
21360 21370 21380 21390 21400 21410 21420 

>< Tru9I 
>< Msel 
>< Hindu 
>< Hindi 
X Hpal Afllll > 

GTAGGCTTAT CATTAGAGAA AACAACAGAG TTGTGGTTTC AAGTGATATT CTTGTTAACA ACTAAACGAA 
21430 21440 21450 21460 21470 21480 21490 

>< Vnel 
>< Snol 

>< Sdul 
>< NspII 
>< Hpall 

>< HgiAI 
>< HapII 
X CfrlOI 

>< Bspl286l 
>< Msplx Bmyl 

>< Nspl >< Spel >< ApaLI 

>< NspHI >< Rmal >< Alw4 4I 

>< Nlalll >< Mael >< Maelll >< Agel >< Alw21I 

CATGTTTATT TTCTTATTAT TTCTTACTCT CACTAGTGGT AGTGACCTTG ACCGGTGCAC CACTTTTGAT 
21500 21510 21520 21530 21540 21550 21560 

> < Alul X Mnll 

GATGTTCAAG CTCCTAATTA CACTCAACAT ACTTCATCTA TGAGGGGGGT TTACTATCCT GATGAAATTT 
21570 21580 21590 21600 21610 21620 21630 

>< Sau3AI 



FIGURE 13. 50 
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X Ndell 
>< Mbol 
>< DpnII 

>< Dpnl >< Tru9I 

X BspAI >< MseI > < MboII >< 

tti^™ 1 J£tctttat txaaScagg^tttatttct tccattttat tctaatgtta cagggtttca 

21640 21650 21660 21670 21680 21690 ^ 1/uu 

>< Vspl 
>< Tru9I 

>< Tru9I ><? cokl 

x a?ot >< Maell >< MseI >< BbvI > < Fnu4HI 

ncn^S catacgtttg gcaaccctgt catacctttt aaggatggta tttattttgc tgccacagag 

21710 21720 21730 21740 21750 21760 21 //U 



>< BslI 

X DsalX BsiYI >< Nlalll 

>< BsaJI < MaeI11 

aaatcaaatg ttgtccgtgg ttgggttttt ggttctacca tgaacaacaa gtcacagtcg gtgattatta 

21780 21790 21800 21810 21820 21830 2184U 

>< Nspl 

>< Tru9I >< Ns P HI 

>< MseI >< NlaI11 w M ttt 

x HnhT >< Maelll >< Maelll 

™- ™- "^ssn TGaAT sr,o "rss 

x i^oT x Rsal >< PPU10I TthHBSI X 

x E 1 >< NsiI TaqI 

C I itnr >< MseI SfaNI 

x S!i>J C.06I >< MphH03I RsaI >< 

X SSS " X TthHBBI >< BCOT22I CspSX >< 

x BsaJIX Afal x TaqI >< Avalll Afal >< 

TTCTAAACCC AT GGGTACAC AGACACATAC TATGATATTC GATAATGCAT TTAATTGCAC TTTCGAGTAC 

21920 21930 21940 21950 21960 21970 2iyau 

>< Txu9I 
>< MseI 
>< Dral 

ATATCTGATG CCTTTTCGCT TGATGTTTCA GAAAAGTCAG GTAATTTTAA ACACTTACGA GAGTTTGTGT 
21990 22000 22010 22020 22030 22040 22050 

X Sau3AI 
x Ndell 
>< Mbol 
>< DpnII 
>< Dpnl 

X Tru9I >K BspAI 

X MseI >< S£c] . BS pl43I >< 

TTAAAAATAA AGATGGGTTT CTCTATGTTT ATAAGGGCTA TCAACCTATA GATGTAGTTC GTGATCTACC 
22060 22070 22080 22090 22100 22110 22120 

>< Tru9I 

>< Tru9I > < Tru9I >< MseI 

>< MseI > < MseI x Mnll 

TTCTGGTTTT AACACTTTGA AACCTATTTT TAAGTTGCCT CTTGGTATTA ACATTACAAA TTTTAGAGCC 
22130 22140 22150 22160 22170 22180 22190 

FIGURE 13.51 
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> < Sduix Sfcl 

>< PvuII 
>< Psp5I 

> < NspII 

>< NspBII 

> < Maell > < Fnu4HI 

> < Bspl286I >< PstI Tru9I > 
>< BspMI > < Bmyix Fnu4HI Msel > 

>< HphI >< Bbvl >< Alul >< Bbvl 

ATTCTTACAG CCTTTTCACC TGCTCAAGAC ATTTGGGGCA CGTCAGCTGC AGCCTATTTT GTTGGCTATT 
22200 22210 22220 22230 22240 22250 22260 

>< SfaNI 
>< Rsal 

> < Csp6I 

>< Dral >< Afal >< AlwNI 

TAAAGCCAAC TACATTTATG CTCAAGTATG ATGAAAATGG TACAATCACA GATGCTGTTG ATTGTTCTCA 
22270 22280 22290 22300 22310 22320 22330 

> < Tru9I 

> < Msel 

>< Alul 

AAATCCACTT GCTGAACTCA AATGCTCTGT TAAGAGCTTT GAGATTGACA AAGGAATTTA CCAGACCTCT 
22340 22350 22360 22370 22380 22390 22400 



>< Saul 
>< Mstll 
>< Eco81I 
>< Ddel 
>< Cvnl 
>< Bsu36I 
>< Bse21I 

>< Axyl >< Tfil 

>< Mnll >< AocI >< Mnll >< Hinfl >< Sspl >< Mnll 

AATTTCAGGG TTGTTCCCTC AGGAGATGTT GTGAGATTCC CTAATAT TAC AAACTTGTGT CCTTTTGGAG 
22410 22420 22430 22440 22450 22460 22470 



>< Zsp2I 
>< PpulOI 

>< Nsil 

> < Nlalll 
>< Mphll03I 

>< Tru9I >< EcoT22I 

>< Msel >< Avalll 

AGGTTTTTAA TGC TACT AAA TTCCCTTCTG TCTATGCATG GGAGAGAAAA AAAATTTCTA ATTGTGTTGC 
22480 22490 22500 22510 22520 22530 22540 



>< Sdul 
>< NspII 
>< HgiAI 
>< Bspl286I 

>< Bmyl >< Tru9I 

>< Alw21I >< Msel Ddel >< 

TGATTACTCT GTGCTCTACA ACTCAACATT TTTTTCAACC TTTAAGTGCT ATGGCGTTTC TGCCACTAAG 
22550 22560 . 22570 22580 22590 22600 22610 



>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Dpnl 
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X BspAI >< Tfil 

>< Bspl4 3l >< Hinfl 

TTGAATGATC TTTGCTTCTC CAATGTCTAT GCAGATTCTT TTGTAGTCAA GGGAGATGAT GTAAGACAAA 

22620 22630 22640 22650 22660 22670 22680 



>< ScrFI 
>< Mval 
>< HinPlI 
>< Hin6I 
>< Hhal 

>< Haell 
>< EcoRII 

>< Ecll36I 
>< DsaV 
X Cfol 
>< BstOI 
>< BstNI 
x Bspl43II 
X BsiLI 

X Apyl > < BsrI >< Nlalll 

TAGCGCCAGG ACAAACTGGT GTTATTGCTG ATTATAATTA TAAATTGCCA GATGATTTCA TGGGTTGTGT 
22690 22700 22710 22720 22730 22740 22750 



>< SfaNI 

>< Rmal D'del >< 

X Mael >< BsrI Bfrl x 

CCTTGCTTGG AATACTAGGA ACATTGATGC TACTTCAACT GGTAATTATA AT T AT AAAT A TAGGTATCTT 

22760 22770 22780 22790 22800 22810 22820 

X Sau96I 

>< Pall 
X NspIV 
> < Hindlll 

X Haelll 
X EcoO109I 
X Drall 
X Ddel 

x Cfrl3I 
>< BsuRI 
x BsiZI 
X BshI 
>< Bfrl >< PssI 
X Nlalll >< AsulX BsmAI 

X Alul X Alw26I BspWI X 

AGACATGGCA AGCTTAGGCC CTTTGAGAGA GACATATCTA ATGTGCCTTT CTCCCCTGAT GGCAAACCTT 
22830 22840 22850 22860 22870 22880 22890 

x Tru9I 
x Pall 
>< MscI 
X Haelll 
X EaelX Msel 
X Tru9I >< BsuRI 

>< Msel >< BshI 

x BspMI >< Ball BsrI X 

GCACCCCACC TGCTCTTAAT TGTTATTGGC CAT T AAAT G A TTATGGTTTT TACACCACTA CTGGCATTGG 
22900 22910 22920 22930 22940 22950 22960 



Sau96I x 
X PallNspIV >< 
> < Mspl NspHII >< 
x Haelll 



FIGURE 13.53 
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> < Hpall Eco47I >< 

>< Dsal 

> < HapII Cfrl3I >< 

>< BsuRISinI >< 

>< Gdill BsiZI >< 
>< Seal >< BsaJI 

>< Rsal >< Tru9I >< Eael Bmel8l >< 

>< Csp6I >< Msel >< CfrlOI Avail >< 

>< Afal >< Dral >< BshI Asul >< 

CTACCAACCT TACAGAGTTG TAGTACTTTC TTTTGAACTT TTAAATGCAC CGGCCACGGT TTGTGGACCA 

22970 22980 22990 23000 23010 23020 23030 



>< Tru9I >< Rsal 

>< Tru9I >< Csp6I 

>< Plel BsrI >< 

> < Tru9I >< Msel >< BsrI 

> < Mseix BsrI >< Msel >< Hinfl >< Afal 
AAATTATCCA CTGACCTTAT TAAGAACCAG TGTGTCAATT TTAATTTTAA TGGACTCACT GGTACTGGTG 

23040 23050 23060 23070 23080 23090 23100 



>< Tru9I >< Pall 

>< Msel >< Haelll 

>< MboII >< Gdill 

>< Hpal >< Eael 

>< Hindll >< BsuRI Tfil >< 

>< Hindi >< BshI Hinfl >< 
TGTTAACTCC TTCTTCAAAG AGATTTCAAC CATTTCAACA ATTTGGCCGT GATGTTTCTG ATTTCACTGA 

23110 23120 23130 23140 23150 23160 23170 



> < XhoII 
>< TthHB8I 
>< TaqI 

> < Sau3AI 

> < Ndell 

> < Mfll 

> < Mbol 

> < DpnII 

>< Dpnl 

> < BstYI 

> < BspAI > < Sspl 

>< Alwl >< Bspl4 3I >< HphI 

TTCCGTTCGA GATCCTAAAA CATCTGAAAT ATTAGACATT TCACCTTGCT CTTTTGGGGG TGTAAGTGTA 
23180 23190 23200 23210 23220 23230 23240 



>< ScrFI 
>< Mval 
>< EcoRII 

>< Ecll36I >< Tru9I 

>< DsaV >< Msel 

>< BstOI >< Hpal 

>< BstNI >< Hindll 

>< BsiLI >< Eco57I 

>< Apyl >< Bsgl >< Hindi 

ATTACACCTG GAACAAATGC TTCATCTGAA GTTGCTGTTC TATATCAAGA TGTTAACTGC ACTGATGTTT 
23250 23260 23270 23280 23290 23300 23310 



>< Sau3AI 
>< Nlalll 
>< Ndell 
' >< Mbol 
>< DpnII 

>< Dpnl >< HinPlI 

FTOTTRP 1^ 54 
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>< BspWI >< Hin6I 

X BspAI > < Hhal Plel >< 

>< Sfci >< Bspl43I >< Alul> < Cfol >< BsrI 

CTACAGCAAT TCATGCAGAT CAACTCACAC CAGCTTGGCG CATATATTCT ACTGGAAACA ATGTATTCCA 

23320 23330 23340 23350 23360 23370 23380 

>< TthHB8I 
>< TaqI 
>< Sail 
>< Rtrl 
>< Nspl 
>< Espl >< NspHI 
>< Ddel >< Nlalll 
>< Celll >< Hindll 
>< Bpull02I>< Hindi 
>< Hinfl >< Alul >< AccI 

GACTCAAGCA GGCTGTCTTA TAGGAGCTGA GCATGTCGAC ACTTCTTATG AGTGCGACAT TCCTATTGGA 
23390 23400 23410 23420 23430 23440 23450 

> < SnaBI 

>< Seal 
>< Rsal 
>< Rmal 
>< Maell >< Mael 

> < EcolOSI 
>< Rmal >< Csp6I 

>< Maelll > < BsaAI 

>< Alul >< Mael >< Afal v 

GCTGGCATTT GTGCTAGTTA CCATACAGTT TCTTTATTAC GTAGTACTAG CCAAAAATCT ATTGTGGCTT 

23460 23470 23480 23490 23500 23510 , 23520 

>< Muni 

ATACTATGTC TTTAGGTGCT GATAGTTCAA TTGCTTACTC TAATAACACC ATTGCTATAC CTACTAACT T 
23530 23540 23550 23560 23570 23580 '. 23590 

Rsal >< 
>< Mnll 

Csp6I >< 

>< Sfci Afal >< 

TTCAATTAGC AT TACT AC AG AAGTAATGCC TGTTTCTATG GCTAAAACCT CCGTAGATTG T AAT ATG T AC 
23600 23610 23620 23630 23640 23650 23660 

> < Tfil 

> < Hinfl 

>< Acil > < Alul 

ATCTGCGGAG ATTCTACTGA ATGTGCTAAT TTGCTTCTCC AATATGGTAG CTTTTGCACA CAACTAAATC 
23670 23680 23690 23700 23710 23720 23730 

>< Vnel 

>< Sdul 
>< NspII 

X HgiAI X Pmll 

>< Snoix Ddel X Sau3AI X PmaCI 

• X Bspl286I x Ndell x Maell 

X Bmyl X Mbol X Eco72I 

>< Bbvl X Dpnl >< BsaAI 

x ApaLI X Bspl4 3I X BbrPI 

X Alw44I X DpnII X Alwl 

>< Alw21I x Fnu4HI X BspAI >< AflHI 
GTGCACTCTC AGGTATTGCT GCTGAACAGG ATCGCAACAC ACGTGAAGTG TTCGCTCAAG TCAAACAAAT 

23740 23750 23760 23770 23780 23790 23800 



FIGURE 13.55 
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>< Rsal 

>< Csp6I >< Tru9I 

>< Afal >< Sspl >< Msel >< Sspl 

GTACAAAACC CCAACTTTGA AATATTTTGG TGGTTTTAAT TTTTCACAAA TATTACCTGA CCCTCTAAAG 
23810 23820 23830 23840 23850 23860 23870 



>< Mnll 

>< Mnll >< Tru9I >< SfaNI >< HphI Nlalll >< 

>< Ddel >< Mnll >< Msel X Maelll BspHI >< 

CCAACTAAGA GGTCTTTTAT TGAGGACTTG CTCTTTAATA AGGTGACACT CGCTGATGCT GGCTTCATGA 

23880 23890 23900 23910 23920 23930 23940 



>< XhoII 
>< Sau3AI 
>< Styl >< Rmal 

>< Rmal >< Ndell 

>< Mael >< Mfll 

>< EcoT14I >< Mbol 

>< Ecol30I >< Mael 

X BssTlI >< Vspl >< DpnII 
>< BsmI >< Hphl> < Dpnl 

>< BscCI >< Tru9I >< BstYI 

>< BsaJI >< Msel >< BspAI 
>< Blnl >< Asnl > < Bspl4 3I 

>< Avrll • >< Asel >< Bglll 
AGCAATATGG CGAATGCCTA GGTGATATTA ATGCTAGAGA TCTCATTTGT GCGCAGAAGT 
23950 23960 23970 23980 23990 24000 



>< MstI 
>< HinPlI 
>< Hin6I 
>< Hhal 
>< Fspl 
>< Fciill 
>< Cfol 
>< Avill 



TCAATGGACT 
24010 



>< RmalRsal >< 
>< Mnll >< Fnu4HI >< Fnu4HI Csp6I X 

>< BspWI >< Bbvl >< BbvX >< BspWI >< MaelAfal >< 

TACAGTGTTG CCACCTCTGC TCAC T GATGA TATGATTGCT GCCTACACTG CTGCTCTAGT TAGTGGTACT 
24020 24030 24040 24050 24060 24070 24080 



>< MboII 
>< HinPlI 
>< Hin6I 
>< Hhal 
>< Haell 

>< Fnu4HI >< Ksp632I 
X Cfol X Earl 
>< Fokl >< BspWI >< Eamll04I 
X Bbvl X Bspl4 3II 

GCCACTGCTG GATGGACATT TGGTGCTGGC GCTGCTCTTC AAATACCTTT TGCTATGCAA ATGGCATATA 
24090 24100 24110 24120 24130 24140 24150 



Tru9I X 

X Maelll Msel >< 

GGTTCAATGG CATTGGAGTT ACCCAAAATG TTCTCTATGA GAACCAAAAA CAAATCGCCA ACCAATTTAA 
24160 24170 24180 24190 24200 24210 24220 



Maell X 

X Tfil X Fnu4HI 

X Hinfl X Bbvl X Alul 

CAAGGCGATT AGTCAAATTC AAGAATCACT TACAACAACA TCAACTGCAT TGGGCAAGCT GCAAGACGTT 
24230 24240 24250 24260 24270 24280 24290 



X Tru9I 
X Msel 

x Hpal >< Ddel 

X Hindll >< BsmI >< Tru9I >< Tru9I >< Bfrl 

X HincIIX BscCI >< Msel X Msel >< Alul 



FIGURE 13. 5 6 
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GTTAACCAGA ATGCTCAAGC ATTAAACACA CTTGTTAAAC AACTTAGCTC TAATTTTGGT GCAATTTCAA 

24300 24310 24320 24330 24340 24350 24360 

>< Thai 

>< Spol 

>< Nrul 

>< Mvnl 

>< BstUI 

>< Bsp68I 

>< EcoRV >< BspSOI 



>< TthHB8I 

>< TaqI >< Rsal 

>< Mnll >< Csp6I 

>< AcilX Afal 



>< Tru9I 
>< Msel 



>< Eco32I >< AccII X'Mnll 
GTGTGCTAAA TGATATCCTT TCGCGACTTG ATAAAGTCGA GGCGGAGGTA CAAATTGACA GGTTAATTAC 
24370 24380 24390 24400 24410 24420 24430 

X Maelll >< Bbvl >< Fnu4HI Bbvl >< 

AGGCAGACTT CAAAGCCTTC AAACCTATGT AACACAACAA CTAATCAGGG CTGCTGAAAT CAGGGCTTCT 
24440 24450 24460 24470 24480 24490 24500 

X Fnu4HI >< Hindll 

X BspWI >< Ddel >< Hindi 

GCTAATCTTG CTGCTACTAA AATGTCTGAG TGTGTTCTTG GACAATCAAA AAGAGTTGAC TTTTGTGGAA 



24510 



24520 



24530 



24540 



24550 



24560 



24570 



> < Nspl 

> < NspHI 

> < Nlalll 
>< Maeill 

>< Nlalll >< Maell 

>< MboII >< FokT 

>< Fnu4HI >< Bbsl BsaAI >< 

>< AcilX Bbvl x AfllH,''' 

AGGGCTACCA CCTTATGTCC TTCCCACAAG CAGCCCCGCA TGGTGTTGTC TTCCTACATG TCACGTATGT 
24580 24590 24600 24610 24620 24630 '-'24 64 0 

X ScrFI 
>< Mval 
X EcoRII 
X Ecll36I 
>< BstOI 
X BstNI 
X Mnll X BslI 
>< DsaVx BsiYI 

X BsiLI 
x BsaJIX HphI 
X Apyl 



X 
X 



HinPlI 
Hin6I 
>< Hhal 

X Haell 
x Cfol x Nlalll 

X Bspl43II X BspHI EcoNI X 

GCCATCCCAG GAGAGGAACT TCACCACAGC GCCAGCAATT TGTCATGAAG GCAAAGCATA CTTCCCTCGT 
24650 24660 24670 24680 24690 24700 24710 

X Mnll 
>< BsJLI x Tru9I 

X BsiYI X Msel >< Mnll 

GAAGGTGTTT TTGTGTTTAA TGGCACTTCT TGGTTTATTA CACAGAGGAA CTTCTTTTCT CCACAAATAA 
24720 24730 24740 24750 24760 24770 24780 

x Ddel >< Tru9I 

X BsmAI >< sfaNI 

>< Sfcl x Alw26I >< MselAlwI X 

TTACTACAGA CAATACATTT GTCTCAGGAA ATTGTGATGT CGTTATTGGC ATCATTAACA AC AC AG T T T A 
24790 24800 24810 24820 24830 24840 24850 

X Sau3AI 
>< Ndell 



FIGURE 13.57 
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>< Mbol >< Plel > < Seal 

>< DpnII >< Mnll > < Ksp632I > < Rsal 

>< Dpnl >< Ddel >< Hinfl >< MboII 

>< BspAI >< BspWI > < Eamll04I >< Csp6I 

X Bspl43I >< Alul > < Earl > < Alul > < Afal > < HphI 

TGATCCTCTG CAACCTGAGC TTGACTCATT CAAAGAAGAG CTGGACAAGT ACTTCAAAAA T CAT AC AT C A 
24860 24870 24880 24890 24900 24910 24920 

>< Sau3AI 
X Ndell 
>< Mbol 
>< MamI 
X DpnII 

>< Dpnl 
>< BspAI 

>< Bspl43I 

>< BsiBI >< Tru9I >< Hindll 

>< BsaBI >< Msel >< Hindi Acil >< 

CCAGATGTTG ATCTTGGCGA CATTTCAGGC ATTAACGCTT CTGTCGTCAA CATTCAAAAA GAAATTGACC 
24930 24940 24950 24960 24970 24980 24990 

>< Tru9I 

> < Tfil 
>< Mnll x Swal 

>< EcoNI >< Msel 

>< BslI > < Hinfl 

>< MnllX BsiYI >< Dral 

GCCTCAATGA GGTCGCTAAA AATTTAAATG AATCACTCAT TGACCTTCAA GAATTGGGAA AATATGAGCA 
25000 25010 25020 25030 25040 25050 25060 

>< Styl 
>< Pall 
>< Haelll 

>< EcoT14I 

>< Ecol30I 
>< BsuRI 

>< BssTlI Nlalll >< 

>< Tru9I>< BshI Maelll X 

x Msel >< BsaJI >< BstXI 

ATATATTAAA TGGCCTTGGT ATGTTTGGCT CGGCTTCATT GCTGGACTAA TTGCCATCGT CATGGTTACA 
25070 25080 25090 25100 25110 25120 25130 

> < SphI 

> < Pael 

>< Spel . > < Nspl 

> < Rmal > < NspHI 
>< Nlalll > < Nlalll 

> < Mael >< MnllX Bbvl Fnu4HI X 
ATCTTGCTTT GTTGCATGAC TAGTTGTTGC AGTTGCCTCA AGGGTGCATG CTCTTGTGGT TCTTGCTGCA 

25140 25150 25160 25170 25180 25190 25200 

X Fokl 
X Ddel 

x Mnll x Pleix Hinfl x BsrI 

AGTTTGATGA GGATGACTCT GAGCCAGTTC TCAAGGGTGT CAAATTACAT TACACATAAA CGAACTTATG 
25210 25220 25230 25240 25250 25260 25270 

>< Sau3AI 
>< Ndell 
>< Mbol 
X DpnII 
> < Dpnl 

FIGURE 13.58 
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X BspAI 

> < Bspl43I 

X Bsgl >< Alwl >< BsrI BspWI > 

GATTTGTTTA TGAGATTTTT TACTCTTGGA TCAATTACTG CACAGCCAGT AAAAAT TG AC AATGCTTCTC 
25280 25290 25300 25310 25320 25330 25340 



>< Seal 
>< Rsal 
>< Csp6I >< Sfcl 

>< Afal >< Nlalll >< Acil >< Mnll Fokl > 

CTGCAAGTAC TGTTCATGCT ACAGCAACGA TACCGCTACA AGCCTCACTC CCTTTCGGAT GGCTTGTTAT 
25350 25360 25370 25380 25390 25400 25410 



> < HinPlI 

> < Hin6I 

>< Hhal 

>< Haell >< HinPlI 

>< Eco47III >< Hin6I 

>< Cfol >< Hhal 

>< BspWI >< Bspl43II >< Cfol 
TGGCGTTGCA TTTCTTGCTG TTTTTCAGAG CGCTACCAAA ATAATTGCGC TCAATAAAAG ATGGCAGCTA 

25420 25430 25440 25450 25460 25470 25480 



Rmal X 
Nhel >< 
Mael >< 
Fnu4HI >< 

Alul >< 



>< EcoNI 
>< BslI 

>< BsiYI >< Maelll 

>< Bbvl X BsrI X Bbvl > < Fnu4HI Bbvl >< 

GCCCTTTATA AGGGCTTCCA GTTCATTTGC AATTTACTGC TGCTATTTGT TACCATCTAT TCACATCTTT 
25490 25500 25510 25520 25530 25540 ' 25550 



> < Sfcl 

>< PstI 

> < Fnu4HI 
>< BspMI >< Mnll 



>< HinPlI 
>< Hin6I 
>< Hhal 
X Cfol 



>< Rsal 
>< Csp6I 
>< Afal 



>< Mnll 



2sp2I >< 
PpulOI >< 

Nsil >< 
Mphll03I >< 
EcoT22I >< 
Avail I >< 



TGCTTGTCGC TGCAGGTATG GAGGCGCAAT TTTTGTACCT CTATGCCTTG ATATATTTTC TACAATGCAT 



25560 



25570 



25580 



25590 



25600 



25610 



25620 



>< SfaNI 
>< Nspl 
>< NspHI 
>< Nlalll 

CAACGCATGT AGAATTATTA TGAGATGTTG GCTTTGTTGG 
25630 25640 25650 25660 



>< SfaNI 

AAGTGCAAAT CCAAGAACCC ATTACTTTAT 
25670 25680 25690 



>< Bstll07I 
>< AccI Maelll >< 

GATGCCAACT ACTTTGTTTG CTGGCACACA CATAACTATG ACTACTGTAT ACCATATAAC AGTGTCACAG 
25700 25710 25720 25730 25740 25750 25760 



>< MboII 

>< HphI BstXI >< 

>< Muni >< Maelll >< Maelll >< Eco57I >< Bbsl Mnll > 

ATACAATTGT CGTTACTGAA GGTGACGGCA TTTCAACACC AAAACTCAAA GAAGACTACC AAATTGGTGG 
25770 25780 25790 25800 25810 25820 25830 



>< Rsal 

> < Nlalll 
X HphI 
>< Tru9I >< Tthllllx Csp6I 
X Ddel x Ddel x MselX Aspl >< Afal 



FIGURE 13.5 9 
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TTATTCTGAG GATAGGCACT CAGGTGTTAA AGACTATGTC GTTGTACATG GCTATTTCAC CGAAGTTTAC 
25840 25850 25860 25870 25880 25890 25900 

Tru9I >< 

> < HinfIX Plel >< BsrI Msel >< 

>< Alul >< AccI >< Sfcl >< AlwNI >< MboII Hindlll > 

TACCAGCTTG AGTCTACACA AATTACTACA GACACTGGTA TTGAAAATGC TACATTCTTC ATCTTTAACA 
25910 25920 25930 25940 25950 25960 25970 

> < TthHB8I 

>< Tru9I > < TaqI >< Ksp632I 

>< Mse i > < MboII >< Earl BspWI >< 

>< Alul >< Eco57I >< Eamll04I Alwl >< 

AGCTTGTTAA AGACCCACCG AATGTGCAAA TACACACAAT CGACGGCTCT TCAGGAGTTG CTAATCCAGC 
25980 25990 26000 26010 26020 26030 26040 



>< XhoII 
>< Sau3AI 

>< NlalV 
>< Ndell 
>< Mfll 
X Mbol 
>< DpnII 

X Dpnl 
>< BstYI 
>< BstI 
>< BspAI 

X Bspl43I RsaI ><: 

X BscBI >< Kmal Csp6I >< 

>< BamHI >< Alwl >< Mael Afal >< 

AATGGATCCA ATTTATGATG AGCCGACGAC GACTACTAGC GTGCCTTTGT AAGCACAAGA AAGTGAGTAC 
26050 26060 26070 26080 26090 26100 26110 

> < Tru9I 
>< RsaI 

> < Msel 
>< MboII 

x Maell >< RsaI 

x Csp6I >< Tru9I >< Csp6I 

x Afal >< Msel >< Afal 



> < RsaI 
X Csp6I 

> < Afal 



GAACTTATGT ACTCATTCGT TTCGGAAGAA ACAGGTACGT TAATAGTTAA TAGCGTACTT CTTTTTCTTG 
26120 26130 26140 26150 26160 26170 26180 



X Rmal 

> < Maelll 
X Mael X Rmal 
>< Fokl >< Mael 



X TthHB8I 

X TaqI 
x HinPlI 
x Hin6I 
x Hhal 

X Cfol X Bbvl 



> < RsaI 
Fnu4HI >< 
X Csp6I 

> < Afal 



CTTTCGTGGT ATTCTTGCTA GTCACACTAG CCATCCTTAC TGCGCTTCGA TTGTGTGCGT ACTGCTGCAA 
26190 26200 26210 26220 26230 26240 26250 



X Tru9I 
>< Msel 
X Sspl >< Maell 
X Hpal 

x Hindll >< Maell 

X Hindi >< AccI >< AccII 

TATTGTTAAC GTGAGTTTAG TAAAACCAAC GGTTTACGTC TACTCGCGTG TTAAAAATCT GAACTCTTCT 
26260 26270 26280 26290 26300 26310 26320 



x Tru9I 
X Thai 
X Mvnl 

>< Msel 
X BstUI 
X BspSOI 



Ksp632I 
X MboII Earl 
Eamll04I 



FIGURE 13.60 
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>< Sau3AI 
>< Ndell 
>< Mbol 
>< DpnII 
>< Mbollx Dpnl 

>< Xmnl >< BspAI> < Eco57I >< Tru9I 

>< Asp700I>< Bspl43I >< Msel 

GAAGGAGTTC CTGATCTTCT GGTCTAAACG AACTAACTAT TATTATTATT CTGTTTGGAA CTTTAACATT 
26330 26340 26350 26360 26370 26380 26390 

>< ScrFI 
>< Mval 
>< EcoRII 

>< Ecll36I 
X DsaV NlalV >< 
>< Rsal >< BstOI 

>< Mnll >< Tru9I >< BstNI Rmal >< 

>< Csp6I >< Msel >< BsiLI Mael >< 

> < Nlalll >< Afal > < Alul >< ApylBscBI >< 

GCTTATCATG GCAGACAACG GTACTATTAC CGTTGAGGAG CTTAAACAAC TCCTGGAACA ATGGAACCTA 
26400 26410 26420 26430 26440 26450 26460 

>< ScrFI 
>< Rmal 

>< Mval 
>< Mael 

>< EcoRII 

>< Ecll36I 
>< DsaV 
>< BstOI 
>< BstNI 

>< BsiLI v: 
>< Apyl >< Maelll 

GTAATAGGTT TCCTATTCCT AGCCTGGATT ATGTTACTAC AATTTGCCTA TTCTAATCGG AACAGGTTTT 
26470 26480 26490 26500 26510 26520 26530 

>< Pall 
>< Msel 
>< Mnll >< Maelll 
>< Haelll 
>< Eael 
>< BsuRI 
>< BsrI 

x Rsal >< BspWI 

>< Csp6I >< Hindlll < >< BshI 

>< Afal >< Alul >< Ball >< Bbvl Fnu4HI X 

TGTACATAAT AAAGCTTGTT TTCCTCTGGC TCTTGTGGCC AGTAACACTT GCTTGTTTTG TGCTTGCTGC 
26540 • ' 26550 26560 2^570 26580 26590 26600 

>< Vspl 
>< Tru9I 

>< Msel >< HphI 

>< Sfcl >< Asnl >< BsrI 

>< AccI >< AselX Maellix Acil 
TGTCTACAGA ATTAATTGGG TGACTGGCGG GATTGCGATT GCAATGGCTT GTATTGTAGG CTTGATGTGG 
26610 26620 26630 26640 26650 26660 26670 

x Espl 

X Eco57I 

>< Ddel . 
>< Celll - x Rsal 

x Bpull02I X Csp6I 

FIGURE 13.61 



75/83 

>< Bfrl x Afal 

>< Alul >< Acil MboII > 

CTTAGCTACT TCGTTGCTTC CTTCAGGCTG TTTGCTCGTA CCCGCTCAAT GTGGTCATTC AACCCAGAAA 
26680 26690 26700 26710 26720 26730 26740 




>< ScrFI 

>< Neil 
>< Mspl 
>< Hpall 
>< HapII 
>< DsaVX Mnll 

>< BslI 

>< BsiYI 

>< BsaJI >< Muni > < Xcml 

X Bcnl X Maelll >< Acil >< Nlalll 

CAAACATTCT TCTCAATGTG CCTCTCCGGG GGACAATTGT GACCAGACCG CTCATGGAAA GTGAACTTGT 
26750 26760 26770 26780 26790 26800 26810 



>< Sau3AI 
>< Ndell 
>< Mbol 

>< Fbal 
>< DpnII 

>< Dpnl 
>< BspAI 

>< Bspl43I 
>< BsiQI 
>< Bell >< 



>< Pall 
>< Mspl 
>< Hpall 
>< HapII 
>< Haelll 
>< Gdill 
>< Eael 
>< BsuRI 



Tru9I >< 
SinI 
Sau96I 
PpuMI 
NspIV 
Msel >< 
>< Maelll 

> < Rmal >< Haell 

> < Mael EcoO109I 

>< HinPlIEco47I 
x Stylx Hin6I Drall 
>< EcoT14I Cfrl3I 
X Ecol30lx Bspl43II 
X BssTlI BsiZI 
X BsaJI Bmel8I 
>< Blnl X Hhal Avail 
>< Avrll X Cfol Asul 



Maelll x BshI 

CATTGGTGCT GTGATCATTC GTGGTCACTT GCGAATGGCC GGACACTCCC TAGGGCGCTG TGACATTAAG 
26820 26830 26840 26850 26860 26870 26880 



>< Sau3AI 
X Ndell 
>< Mbol 
X DpnII 
X Dpnl 
X PssI X BspMI 
>< PspSII X BspAI >< XmnI 

>< NspHII x Bspl43I X Asp700l > < Hgal Fnu4HI X 

GACCTGCCAA AAGAGATCAC TGTGGCTACA TCACGAACGC TTTCTTATTA CAAATTAGGA GCGTCGCAGC 
26890 26900 26910 26920 26930 26940 26950 



X Tfil 
X Hinfl 

X Bbvl > < Tru9I 

>< Bbvl x Fnu4HI x Acil > < Msel 

GTGTAGGCAC TGATTCAGGT TTTGCTGCAT ACAACCGCTA CCGTATTGGA AACTATAAAT TAAATACAGA 



26960 



26970 



26980 



26990 



27000 



27010 



27020 



>< Mspl 
X Hpall 
X HapII 
>< CfrlOI 
>< Bcgl/a 



X Sspl 



X Rsal 
>< Rmal 

x Csp6I 
>< Maeix Bcgl 

>< Afal X Maelll 



Hindll X 
Hindi x 



FIGURE 13.62 
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CCACGCCGGT AGCAACGACA ATATTGCTTT GCTAGTACAG TAAGTGACAA CAGATGTTTC ATCTTGTTGA 
27030 27040 27050 27060 27070 27080 27090 

>< ScrFI 

>< Mval 
>< Maelll 
>< EcoRII 

>< Ecll36I 
>< DsaV 

x BstOI 

>< BstNI 

>< BsiLI >< Tfil 

>< Apyl >< Mnll Hinfl >< 

CTTCCAGGTT ACAATAGCAG AGATATTGAT TATCATTATG AGGACTTTCA GGATTGCTAT TTGGAATCTT 
27100 27110 27120 27130 27140 27150 27160 

>< BsmAI X Tru9I > < Mnll 

X Maell X Alw26I >< Msel x Ddel >< MboII 

GACGTTATAA TAAGTTCAAT AGTGAGACAA TTATTTAAGC CTCTAACTAA GAAGAATTAT TCGGAGTTAG 

27170 27180 27190 27200 27210 27220 27230 

X Ksp632I 
>< MboII • >< Earl 

>< MboII >< NlaIIIEamll04I >< 

ATGATGAAGA ACCTATGGAG T TAG AT TATC C AT AAAAC G A ACATGAAAAT TATTCTCTTC CTGACATTGA 
27240 27250 27260 27270 27280 27290 27300 

> < Rsal X Rsal 
>< Csp6I X Csp6I 

> < Alul >< Mnll > < Afal X Af al * 

TTGTATTTAC ATCTTGCGAG CTATATCACT ATCAGGAGTG TGTTAGAGGT ACGACTGTAC TACTAAAAGA 
27310 27320 27330 27340 27350 27360 '. 27370 

>< Mnll X HphI X HphI X Mnll 

ACCTTGCCCA TCAGGAACAT ACGAGGGCAA TTCACCATTT CACCCTCTTG CTGACAATAA ATTTGCACTA 
27380 27390 27400 27410 27420 27430 27440 

Sau3AI > 

> < PvuII 

> < PspSI 

> < NspBII 
X TthHB8I Ndell > 
>< TaqI Mbol > 

x Rsal >< Fnu4HI 
>< Csp6I DpnII > 

X Rmal X Bbvl BspAI > 

x Mael x Afal > < Alul 

ACTTGCACTA GCACACACTT TGCTTTTGCT TGTGCTGACG GTACTCGACA TACCTATGAG CTGCGTGCAA 
27450 27460 27470 27480 27490 27500 27510 

X SstI 
>< Sdul 
X Sad 
X NspII 
X HgiAI 
X Eco24I 

> < Ecll36II 

X BspWI 
X Bspl286I 
>< Bmyl 

>< HphI >< Banll 

X Dpnl >< Mnll >< Alw21I 

FIGURE 13. 6 3 
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>< Bspl4 3I >< Mnll > < Alul Bbvl >< 

GATCAGTTTC ACCAAAACTT TTCATCAGAC AAGAGGAGGT TCAACAAGAG CTCTACTCGC CACTTTTTCT 
27520 27530 27540 27550 27560 27570 27580 

SstI >< 
Sdul X 
SacI >< 
NspII >< 
HgiAI >< 
Eco24I >< 
Ecll36II >< 
Bspl286I >< 
Bmyl >< 

>< Rmal >< Tru9I Banll >< 

>< Mael >< Msel >< Tru9I Alw21I >< 

>< Fnu4HI >< HphI >< Msel Alul >< 

CATTGTTGCT GCTCTAGTAT TTTTAATACT TTGCTTCACC ATTAAGAGAA AG AC AGAAT G AATGAGCTCA 
27590 27600 27610 27620 27630 27640 27650 

>< Tru9I >< Tru9I 

>< Msel >< Msel 

CTTTAATTGA CTTCTATTTG TGCTTTTTAG CCTTTCTGCT ATTCCTTGTT TTAATAATGC TTATTATATT 
27660 27670 27680 27690 27700 27710 27720 

>< XhoII 
X Xbal 

> < ScrFI 

>< Sau3AI 

>< Rmal 
X Ndell 

> < Mval 

>< Mfll 
>< Mho I 
>< EcoRIlx Mael 

> < Ecll36I 

>< DpnII 

>< Dpnl 
X BstYI 

> < BstOI 

> < BstNI 

>< TthHB8I >< BspAI > < Rsal 

>< DsaVX Bspl43I X MboII 

> < BsiLI X Csp6I 

X TaqI > < Apyl > < Alwl > < Afal X Nlalll 

TTGGTTTTCA CTCGAAATCC AGGAT CTAGA AGAACCTTGT ACCAAAGTCT AAACGAACAT GAAACTTCTC 
27730 27740 27750 27760 27770 27780 27790 

x HinPlI 
>< Hin6I 
X Hhal 
X Rsal >< Haell 
>< Sfcl X Eco47III 

X Csp6I>< Cfol SfaNI >< 
X Ndel >< Afal X Bspl43II 

ATTGTTTTGA CTTGTATTTC TCTATGCAGT TGCATATGCA CTGTAGTACA GCGCTGTGCA TCTAATAAAC 
27800 27810 27820 27830 27840 27850 27860 

X XhoII 
x Sau3AI 
>< Ndell 
> < Mnll 

X Mfll 



FIGURE 13 64 
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>< Mbol 
>< DpnII 

>< Dpnl 
>< BstYI 
>< Nlalllx BspAI 



>< Rsal 
>< Mbol I 

X Csp6I >< Rmal 
>< Alwl >< Bspl4 3I >< Afal >< Mael 
CTCATGTGCT TGAAGATCCT TGTAAGGTAC AACACTAGGG GTAATACTTA TAGCACTGCT TGGCTTTGTG 
27870 27880 27890 27900 27910 27920 27930 

>< Sdul 

>< Rmal 
>< NspII 

X Mael 
>< HgiAI 

>< Bspl286I >< Nspl 

X Bmyl >< NspHI 

>< Alw21I >< Nlalll >< Maelll 

CTCTAGGAAA GGTTTTACCT TTTCATAGAT GGCACACTAT GGTTCAAACA TGCACACCTA ATGTTACTAT 



27940 

> 
> 



> 
> 
> 

> 
> 
> 

>< Alwl 



27950 



27960 



27970 



27980 



27990 



28000 



< XhoII 

< Sau3AI > < Van91I 

>< PvuII 
>< Psp5I 

< Ndell > < PflMI 

< MfllX NspBII 

< DpnII >< HinPlI 
X Bspl43I >< Hin6I 

< BstYI > < BslI >< Hhal 

< BspAI > < BsiYIx Cfol 

< MbolX AluIX BspWI >< 
>< Dpnl > < AccB7I 



X Rsal 
X NlalV 

X Kpnl X Nlalll 
>< Eco64I >< Maelll 

X Csp6I>< HphI 



X Rmal 
x Mael 

BspWI 

>< Alul 



X BscBI 
>< BanI x 
X Asp718 

>< Afal 
X AccBlI 
>< Acc65I 



X Eco0651 
BspHI 

X Eco91I 
X BstPI 
X BstEII 
>< Bbvl 



CAACTGTCAA GATCCAGCTG GTGGTGCGCT TATAGCTAGG TGTTGGTACC TTCATGAAGG TCACCAAACT 



28010 



28020 



28030 



28040 



28050 



28060 



28070 



x Fnu4HI 
X Esp3I 
X BsmAI 
X Alw2 6I 



>< Rsal 
X Maell 
>< Csp6I 
>< BsmBI 
>< Afal 



x Tru9I 
X Msel 
x Dral 



>< Tru9I 
>< Msel 



>< SinI 
>< Sau96I 
>< NspIV 
NspHII X 
NlalV x 

>< Eco47l 
X Cfrl3I 
>< BsiZI 
BscBI X 

x Bmel8I 
X Avail 
>< Asul 



GCTGCATTTA GAGACGTACT TGTTGTTTTA AATAAACGAA CAAATTAAAA TGTCTGATAA TGGACCCCAA 



28080 



28090 



28100 



28110 



28120 



28130 



28140 



X Maell 



X Sdul 
>< NspII 
x Bspl286I 
>< Bmyl 

X Acil 



X SinI 
>< Sau96I 
X NspIV 
>< NspHII 
>< NlalV 
X Eco4 7I 
X Cfrl3I 
X BsiZI 

X BscBI 
X Bmel8I 
>< Avail >< Tfil 
X Asul x Hinfl 



X Mnll 



FIGURE 13. 65 
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TCAAACCAAC GTAGTGCCCC CCGCATTACA TTTGGTGGAC CCACAGATTC AACTGACAAT AACCAGAATG 
28150 28160 28170 28180 28190 28200 28210 

>< HinPlI >< Styl 
>< Haell 

> < Pall >< Hin6l >< EcoT14I 

> < Haelll >< HhalX Ecol30I 

>< BspWI >< BssTlI 

> < BsuRI >< Bspl4 3II 

X Hgal> < BshI >< CfoIX BsaJI >< Hgal 

GAGGACGCAA TGGGGCAAGG CCAAAACAGC GCCGACCCCA AGGTTTACCC AATAATACTG CGTCTTGGTT 
28220 28230 28240 28250 28260 28270 28280 

X TthHB8I 

> < ScrFI 
>< Pall 

>< PaeR7I 
>< NspIII 

> < Mval 
>< Haelll 
>< EcoRII 

>< Eco88I 

>< Xhol > < Ecll36I 
>< DsaV 
X BsuRI 
>< Slal > < BstOI 
>< MnllX Taql> < BstNI 
X Ccrl > < BsiLI 
X Hinfl >< BshI 

X Tfilx Bcoix BsaJI 
X Mnll >< Ddel x Aval > < Apyl 

x Alul X Ddel > < Nlalll >< Bfrl x Ama87I >< Mnll 
CACAGCTCTC ACTCAGCATG GCAAGGAGGA ACTTAGATTC CCTCGAGGCC AGGGCGTTCC AATCAACACC 
28290 28300 28310 28320 28330 28340 28350 

X SinI 
X Sau96l 
X NspIV 

>< NspHII 
X Eco47I 
>< Cfrl3l 
>< BsiZI 

X Bmel8I > < Ksp632I 

>< Avail > < Eamll04I 

><C AsuI > < Earl > < AlulX MboII >< Maelll 

AATAGTGGTC CAGATGACCA AATTGGCTAC TACCGAAGAG CTACCCGACG AGTTCGTGGT GGTGACGGCA 
28360 28370 28380 28390 28400 28410 28420 

>< SstI 
X Sdul 
X Sad 
X NspII 
>< HgiAI 
X Espl 

>< Eco24I >< sau96l 

>< Ecll36II >< styl x Pall 

D6eI X Rmal >< NspIV 

>< Celll >< Mael x Haelll 

>< Bspl286I >< EcoT14I X Cfrl3I 

>< Bpull02I >< Ecol30I X BsuRI 

><: Bm y J >< BssTlI > < BsrI 

>< Banll x Rsal >< BsaJI X BsiZI 

FIGURE 13. 66 
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>< Alw21I >< Csp6I X Blnl >< BshlX Hindlll 

>< HphI >< Alul >< Afal >< Avrll >< Asul >< Alul 

AAATGAAAGA GCTCAGCCCC AGATGGTACT TCTATTACCT AGGAACTGGC CCAGAAGCTT CACTTCCCTA 
28430 28440 28450 28460 28470 28480 28490 

>< HinPlI 
>< Hin6I 
>< Hhal 
>< Haell 

>< Cfol > < Mnll >< NlalV 

X Bspl43II >< SfaNI X Ddel X BscBI 

CGGCGCTAAC AAAGAAGGCA TCGTATGGGT TGCAACTGAG GGAGCCTTGA ATACACCCAA AGACCACATT 
28500 28510 28520 28530 28540 28550 28560 

x NlalV 
X Eco64I 

X BscBI 
X BanI 

x Acil 

X AccBlI >< Bbvl X Fnu4HI >< Mnll 

GGCACCCGCA ATCCTAATAA CAATGCTGCC ACCGTGCTAC AACTTCCTCA AGGAACAACA TTGCCAAAAG 
28570 28580 28590 28600 28610 28620 28630 

X Thai 
x Mnll 
X Maell >< Mvnl 
X Mnll BstUI X 

X Fnu4HI >< Ksp632I BspSOI >< 

>< BspWI >< Earl >< BsaAIX Acil 

X Mnll X Mnll >< Acilx MboII >< Eamll04I AccII >< 

GCTTCTACGC AGAGGGAAGC AGAGGCGGCA GTCAAGCCTC TTCTCGCTCC TCATCACGTA GTCGCGGTAA 
28640 28650 28660 28670 28680 28690 28700 

x ScrFI 
>< Mval 

X EcoRII >< TthHB8I 

x Eel 1361 x Rmal 

X DsaVx Fnu4HI >< Nhel 

X BstOI >< Mnll 

x BstNI >< Mael 

X BsiLI > < BspWI 

X Apyl X Bbvl X TaqI >< Acil 

TTCAAGAAAT TCAACTCCTG GC AG CAG TAG GGGAAATTCT CCTGCTCGAA TGGCTAGCGG AGGTGGTGAA 

28710 28720 28730 28740 28750 28760 28770 

> < Thai 

> < Mvnl 

X HphI X Mnll - - 

> < HinPlI 

> < Hin6I 

x Hhal 

> < BstUI X Rmal Pall X 

> < BspSOI X Mael Haelll x 
X Bbvl X CfolX Fnu4HI BsuRI X 

> < AccIIX BspWI >< Alul BshI X 
ACTGCCCTCG CGCTATTGCT GCTAGACAGA TTGAACCAGC TTGAGAGCAA AGTTTCTGGT AAAGGCCAAC 

28780 28790 28800 28810 28820 28830 28840 

Rsal x 

> < Palix Maelll X Mnll 

> < Haelll x Fnu4HI Maell >< 

> < BsuRI x Ddel >< Ddel ' Csp6I >< 



FIGURE 13.67 




™ ~ ~ "41™ ~ -2s 

>< Tthllll 
>< SinI 
>< Sau96I 
>< NspIV 
>< NspHII 
> < Maell 

>< Eco47I 
>< Cfrl3I 
>< BsmBI 
>< BsiZI 
>< Bmel8I 
>< Avail 
>< Asul 
Aspl 



>< 



>< Styl 
>< EcoT14I 
>< Ecol30I 
>< BssTlI 
>< BsaJI 



Rsal 

>< Maelll 
>< Maell >< Esp3I 

>< Csp6I >< BsmAI 

— sss ~ ~ss t ^S ~ -^S ~s 

>< SinI 
>< Sau96I 
>< NspIV 
>< NspHII 
>< NlalV 
>< Eco47I 
>< Cfrl3I 
>< BsiZI 

>< BscBI 
>< Bmel8l 
>< Avail 
>< Asul 



>< Pall 
>< Haelll 
>< Gdill 

>< Fnu4HI 
>< Eael 
>< BsuRI 
>< BshI 
>< Acil 



BspWI > 

—as —a- ~c HssHss - ja, 

>< BsmI ><c NlaIII 

>< BscCI >< Mnll >< Maelll ><r m^ttt 

GTGCCTCTGC MTCTTTGGA ATGTCACGCA TTGGCJTGGJ TCGGGAACAT GGCTGACTTA 



29090 



29100 



29110 



29120 



>< XhoII 
>< Sau3AI 
>< Ndell 
>< Mfll 
>< Mbol 

X Fokl 
X DpnII 

> < Dpnl 
>< BstYI 
>< BspAI 

—as HIS ^ 



X Tru9I 
X NlalV 
>< NlaIII 

X Msel 
>< BscBI 



X Tthllll 
>< Maell 
Aspl 



Espl >< 
Ddel X 
Celll >< 

>< Hgal Bpul202I X 

»™ — » -ACCAACA GAGCCTAAAA AGGACAAAAA GAAAAAGACJ 
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>< Plel 

>< Fnu4HI >< MboII 

X BspWI >< MboII >< Ksp632I >< Gsul 

>< BsmAI >< Maelll >< EarIX Fnu4HI 

X Alw26I >< Hinfl >< Eamll04I>< Bpral 

>< Acil >< Fnu4HI >< Bbvl >< Acil >< Nlalll 

AGCCTTTGCC GCAGAGACAA AAGAAGCAGC CCACTGTGAC TCTTCTTCCT GCGGCTGACA TGGATGATTT 

29270 29280 29290 29300 29310 29320 29330 

>< Nlalll >< Hinfl Nlalll >< 

>< Fokl >< Alul >< TfilX Ddel >< BspHI 

CTCCAGACAA CTTCAAAATT CCATGAGTGG AGCTTCTGCT GATTCAACTC AGGCATAAAC ACTCATGATG 
29340 29350 29360 29370 29380 29390 29400 

>< Maell >< AccI 

ACCACACAAG GCAGATGGGC TATGTAAACG TTTTCGCAAT TCCGTTTACG ATACATAGTC TACTCTTGTG 
29410 29420 29430 29440 29450 29460 29470 

X Tru9I 
X Tru9I 

X Msel 
>< Msel 

X XmnI >< Hpal 

X EcoRIX Maelll >< Hindi! Tru9I X 

X Asp700I >< Bsgl >< Hindi Msel >< 

CAGAATGAAT TCTCGTAACT AAACAGCACA AGTAGGTTTA GTTAACTTTA ATCTCACATA GCAATCTTTA 
29480 29490 29500 29510 29520 29530 29540 



Xorll > 
. TthHB8l > 
TaqI > 
Sau3AI x 
Rsal >< j 
>< ThaIPvuI''> 
Ndell X 
x Mnll 
X MvnIMcrl > 
Mbol >< 
DpnII X 
Dpnl X 
Csp6I x 
X BstUI 
X Haelll BspCI > 
BspAI X 
X TthHB8I X Bsp50I 

X Pall Bspl43I >< 
X BsuRI BsiEI > 
X BshlAfal X 

x Mnll >< TaqI >< Acil 

>< Maelll >< Mnll >< AccII 

ATCAATGTGT AACATTAGGG AGGACTTGAA AGAGCCACCA CATTTTCATC GAGGCCACGC G GAG T AC GAT 



29550 


29560 


29570 


29580 29590 


29600 




29610 
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X Fnu4HI 
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Msel 
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CGAGGGTACA GTGAATAATG CTAGGGAGAG CTGCCTATAT GGAAGAGCCC TAATGTGTAA AATTAATTTT 
29620 29630 29640 29650 29660 29670 29680 

>< Tru9I >< Ddel 
>< Msel >< Bfrl 
>< Nlalll > < Alul 
AGTAGTGCTA TCCCCATGTG AT T TTAATAG CTTCTTAGGA GAATGACAAA AAAAAAAAAA AAAAAA 
29690 29700 29710 29720 29730 29740 
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S226CAS111.ST25 
SEQUENCE LISTING 



< centre^national' > de^la'^recherche scientifique 

<120> utilisation des proteines et des Peptides codes 
nouveUe souche de coronavirus assoae au SRAS 

<130> F226CAS111 
<160> 75 

<170> Patentln version 3.1 

<210> 1 

<211> 29746 

<212> DNA 

<213> CORONAVIRUS 

atattaggtt tttacctacc caggaaaagc caaccaacct cgatctcttg 

ctctaaacga actttaaaat ctgtgtagct gtcgctcggc tgcatgccta 

gcagtataaa caataataaa ttttactgtc gttgacaaga aacgagtaac 

tctgcagact gcttacggtt tcgtccgtgt tgcagtcgat catcagcata 

gtccgggtgt gaccgaaagg taagatggag agccttgttc ttggtgtcaa 

cacgtccaac tcagtttgcc tgtccttcag gttagagacg tgctagtgcg 

gactctgtgg aagaggccct atcggaggca cgtgaacacc tcaaaaatgg 

ctagtagagc tggaaaaagg cgtactgccc cagcttgaac agccctatgt 

cgttctgatg ccttaagcac caatcacggc cacaaggtcg ttgagctggt 

gacggcattc agtacggtcg tagcggtata acactgggag tactcgtgcc 

gaaaccccaa ttgcataccg caatgttctt cttcgtaaga acggtaataa 

ggtcatagct atggcatcga tctaaagtct tatgacttag gtgacgagct 

cccattgaag attatgaaca aaactggaac actaagcatg gcagtggtgc 

ctcactcgtg agctcaatgg aggtgcagtc actcgctatg tcgacaacaa 

ccagatgggt accctcttga ttgcatcaaa gattttctcg cacgcgcggg 

tgcactcttt ccgaacaact tgattacatc gagtcgaaga gaggtgtcta 

gaccatgagc atgaaattgc ctggttcact gagcgctctg ataagagcta 

acacccttcg aaattaagag tgccaagaaa tttgacactt tcaaagggga 

tttgtgtttc ctcttaactc aaaagtcaaa gtcattcaac cacgtgttga 

actgagggtt tcatggggcg tatacgctct gtgtaccctg ttgcatctcc 

aacaatatgc acttgtctac cttgatgaaa tgtaatcatt gcgatgaagt 

acgtgcgact ttctgaaagc cacttgtgaa cattgtggca ctgaaaattt 

ggacctacta catgtgggta cctacctact aatgctgtag tgaaaatgcc 
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tagatctgtt 60 

gtgcacctac 120 

tcgtccctct 180 

cctaggtttc 240 

cgagaaaaca 300 

tggcttcggg 360 

cacttgtggt 420 

gttcattaaa 480 

tgcagaaatg 540 

acatgtgggc 600 

gggagccggt 660 

tggcactgat 720 
actccgtgaa 780 
tttctgtggc 840 
caagtcaatg 900 
ctgctgccgt 960 

cgagcaccag 1020 

atgcccaaag 1080 

aaagaaaaag 1140 

acaggagtgt 1200 

ttcatggcag 1260 

agttattgaa 1320 

atgtcctgcc 1380 
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tgtcaagacc cagagattgg acctgagcat agtgttgcag attatcacaa ccactcaaac 1440 

attgaaactc gactccgcaa gggaggtagg actagatgtt ttggaggctg tgtgtttgcc 1500 

tatgttggct gctataataa gcgtgcctac tgggttcctc gtgctagtgc trgatattggc 1560 

tcaggccata ctggcattac tggtgacaat gtggagacct tgaatgagga tctccttgag 1620 

atactgagtc gtgaacgtgt taacattaac attgttggcg attttcattt gaatgaagag 1680 

gttgccatca ttttggcatc tttctctgct tctacaagtg cctttattga cactataaag 1740 

agtcttgatt acaagtcttt caaaaccatt gttgagtcct gcggtaacta taaagttacc 1800 

aagggaaagc ccgtaaaagg tgcttggaac attggacaac agagatcagt tttaacacca 1860 

ctgtgtggtt ttccctcaca ggctgctggt gttatcagat caatttttgc gcgcacactt 1920 

gatgcagcaa accactcaat tcctgatttg caaagagcag ctgtcaccat acttgatggt 1980 

atttctgaac agtcattacg tcttgtcgac gccatggttt atacttcaga cctgctcacc 2040 

aacagtgtca ttattatggc atatgtaact ggtggtcttg tacaacagac ttctcagtgg 2100 

ttgtctaatc ttttgggcac tactgttgaa aaactcaggc ctatctttga atggattgag 2160 

gcgaaactta gtgcaggagt tgaatttctc aaggatgctt gggagattct caaatttctc 2220 

attacaggtg tttttgacat cgtcaagggt caaatacagg ttgcttcaga taacatcaag 2280 

gattgtgtaa aatgcttcat tgatgttgtt aacaaggcac tcgaaatgtg cattgatcaa 2340 

gtcactatcg ctggcgcaaa gttgcgatca ctcaacttag gtgaagtctt catcgctcaa 2400 

agcaagggac tttaccgtca gtgtatacgt ggcaaggagc agctgcaact actcatgcct 2460 

cttaaggcac caaaagaagt aacctttctt gaaggtgatt cacatgacac agtacttacc 2520 

tctgaggagg ttgttctcaa gaacggtgaa ctcgaagcac tcgagacgcc cgttgatagc 2580 

ttcacaaatg gagctatcgt tggcacacca gtctgtgtaa atggcctcat gctcttagag 2640 

attaaggaca aagaacaata ctgcgcattg tctcctggtt tactggctac aaacaatgtc 2700 

tttcgcttaa aagggggtgc accaattaaa ggtgtaacct ttggagaaga tactgtttgg 2760 

gaagttcaag gttacaagaa tgtgagaatc acatttgagc ttgatgaacg tgttgacaaa 2820 

gtgcttaatg aaaagtgctc tgtctacact gttgaatccg gtaccgaagt tactgagttt 2880 

gcatgtgttg tagcagaggc tgttgtgaag actttacaac cagtttctga tctccttacc 2940 

aacatgggta ttgatcttga tgagtggagt gtagctacat tctacttatt tgatgatgct 3000 

ggtgaagaaa acttttcatc acgtatgtat tgttcctttt accctccaga tgaggaagaa 3060 

gaggacgatg cagagtgtga ggaagaagaa attgatgaaa cctgtgaaca tgagtacggt 3120 

acagaggatg attatcaagg tctccctctg gaatttggtg cctcagctga aacagttcga 3180 

gttgaggaag aagaagagga agactggctg gatgatacta ctgagcaatc agagattgag 3240 

ccagaaccag aacctacacc tgaagaacca gttaatcagt ttactggtta tttaaaactt 3300 

actgacaatg ttgccattaa atgtgttgac atcgttaagg aggcacaaag tgctaatcct 3360 

atggtgattg taaatgctgc taacatacac ctgaaacatg gtggtggtgt agcaggtgca 3420 
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ctcaacaagg caaccaatgg tgccatgcaa aaggagagtg atgattacat taagctaaat 
ggccctctta cagtaggagg gtcttgtttg ctttctggac ataatcttgc taagaagtgt 
ctgcatgttg ttggacctaa cctaaatgca ggtgaggaca tccagcttct taaggcagca 
tatgaaaatt tcaattcaca ggacatctta cttgcaccat tgttgtcagc aggcatattt 
ggtgctaaac cacttcagtc tttacaagtg tgcgtgcaga cggttcgtac acaggtttat 
attgcagtca atgacaaagc tctttatgag caggttgtca tggattatct tgataacctg 
aagcctagag tggaagcacc taaacaagag gagccaccaa acacagaaga ttccaaaact 
gaggagaaat ctgtcgtaca gaagcctgtc gatgtgaagc caaaaattaa ggcctgcatt 
gatgaggtta ccacaacact ggaagaaact aagtttctta ccaataagtt actcttgttt 
gctgatatca atggtaagct ttaccatgat tctcagaaca tgcttagagg tgaagatatg 
tctttccttg agaaggatgc accttacatg gtaggtgatg ttatcactag tggtgatatc 
acttgtgttg taataccctc caaaaaggct ggtggcacta ctgagatgct ctcaagagct 
ttgaagaaag tgccagttga tgagtatata accacgtacc ctggacaagg atgtgctggt 
tatacacttg aggaagctaa gactgctctt aagaaatgca aatctgcatt ttatgtacta 
ccttcagaag cacctaatgc taaggaagag attctaggaa ctgtatcctg gaatttgaga 
gaaatgcttg ctcatgctga agagacaaga aaattaatgc ctatatgcat ggatgttaga 
gccataatgg caaccatcca acgtaagtat aaaggaatta aaattcaaga gggcatcgtt 
gactatggtg tccgattctt cttttatact agtaaagagc ctgtagcttc tattattacg 
aagctgaact ctctaaatga gccgcttgtc acaatgccaa ttggttatgt gacacatggt 
tttaatcttg aagaggctgc gcgctgtatg cgttctctta aagctcctgc cgtagtgtca 
gtatcatcac cagatgctgt tactacatat aatggatacc tcacttcgtc atcaaagaca 
tctgaggagc actttgtaga aacagtttct ttggctggct cttacagaga ttggtcctat 
tcaggacagc gtacagagtt aggtgttgaa tttcttaagc gtggtgacaa aattgtgtac 
cacactctgg agagccccgt cgagtttcat cttgacggtg aggttctttc acttgacaaa 
ctaaagagtc tcttatccct gcgggaggtt aagactataa aagtgttcac aactgtggac 
aacactaatc tccacacaca gcttgtggat atgtctatga catatggaca gcagtttggt 
ccaacatact tggatggtgc tgatgttaca aaaattaaac ctcatgtaaa tcatgagggt 
aagactttct ttgtactacc tagtgatgac acactacgta gtgaagcttt cgagtactac 
catactcttg atgagagttt tcttggtagg tacatgtctg ctttaaacca cacaaagaaa 
tggaaatttc ctcaagttgg tggtttaact tcaattaaat gggctgataa caatrgttat 
ttgtctagtg ttttattagc acttcaacag cttgaagtca aattcaatgc accagcactt 
caagaggctt attatagagc ccgtgctggt gatgctgcta acttttgtgc actcatactc 5340 
gcttacagta ataaaactgt tggcgagctt ggtgatgtca gagaaactat gacccatctt 5400 



3480 

3540 

3600 

3660 

3720 

3780 

3840 

3900 

3960 

4020 

4080 

4140 

4200 

4260 

4320 

4380 

4440 

4500 

4560 

4620 

4680 

4740 

4800 

4860 

4920 

4980 

5040 

5100 

5160 

5220 

5280 



ctacagcatg ctaatttgga atctgcaaag cgagttctta atgtggtgtg taaacattgt 
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ggtcagaaaa ctactacctt aacgggtgta gaagctgtga tgtatatggg tactctatct 5520 

tatgataatc ttaagacagg tgtttccatt ccatgtgtgt gtggtcgtga tgctacacaa 5580 

tatctagtac aacaagagtc ttcttttgtt atgatgtctg caccacctgc tgagtataaa 5640 

ttacagcaag gtacattctt atgtgcgaat gagtacactg gtaactatca gtgtggtcat 5700 

tacactcata taactgctaa ggagaccctc tatcgtattg acggagctca ccttacaaag 5760 

atgtcagagt acaaaggacc agtgactgat gttttctaca aggaaacatc ttacactaca 5820 

accatcaagc ctgtgtcgta taaactcgat ggagttactt acacagagat tgaaccaaaa 5880 

ttggatgggt attataaaaa ggataatgct tactatacag agcagcctat agaccttgta 5940 

ccaactcaac cattaccaaa tgcgagtttt gataatttca aactcacatg ttctaacaca 6000 

aaatttgctg atgatttaaa tcaaatgaca ggcttcacaa agccagcttc acgagagcta 6060 

tctgtcacat tcttcccaga cttgaatggc gatgtagtgg ctattgacta tagacactat 6120 

tcagcgagtt tcaagaaagg tgctaaatta ctgcataagc caattgtttg gcacattaac 6180 

caggctacaa ccaagacaac gttcaaacca aacacttggt gtttacgttg tctttggagt 6240 

acaaagccag tagatacttc aaattcattt gaagttctgg cagtagaaga cacacaagga 6300 

atggacaatc ttgcttgtga aagtcaacaa cccacctctg aagaagtagt ggaaaatcct 6360 

accatacaga aggaagtcat agagtgtgac gtgaaaacta ccgaagttgt aggcaatgtc 6420 

atacttaaac catcagatga aggtgttaaa gtaacacaag agttaggtca tgaggatctt 6480 

atggctgctt atgtggaaaa cacaagcatt accattaaga aacctaatga gctttcacta 6540 

gccttaggtt taaaaacaat tgccactcat ggtattgctg caattaatag tgttccttgg 6600 

agtaaaattt tggcttatgt caaaccattc ttaggacaag cagcaattac aacatcaaat 6660 

tgcgctaaga gattagcaca acgtgtgttt aacaattata tgccttatgt gtttacatta 6720 

ttgttccaat tgtgtacttt tactaaaagt accaattcta gaattagagc ttcactacct 6780 

acaactattg ctaaaaatag tgttaagagt gttgctaaat tatgtttgga tgccggcatt 6840 

aattatgtga agtcacccaa attttctaaa ttgttcacaa tcgctatgtg gctattgttg 6900 

ttaagtattt gcttaggttc tctaatctgt gtaactgctg cttttggtgt actcttatct 6960 

aattttggtg ctccttctta ttgtaatggc gttagagaat tgtatcttaa ttcgtctaac 7020 

gttactacta tggatttctg tgaaggttct tttccttgca gcatttgttt aagtggatta 7080 

gactcccttg attcttatcc agctcttgaa accattcagg tgacgatttc atcgtacaag 7140 

ctagacttga caattttagg tctggccgct gagtgggttt tggcatatat gttgttcaca 7200 

aaattctttt atttattagg tctttcagct ataatgcagg tgttctttgg ctattttgct 7260 

agtcatttca tcagcaattc ttggctcatg tggtttatca ttagtattgt acaaatggca 7320 

cccgtttctg caatggttag gatgtacatc ttctttgctt ctttctacta catatggaag 7380 

agctatgttc atatcatgga tggttgcacc tcttcgactt gcatgatgtg ctataagcgc 7440 

aatcgtgcca cacgcgttga gtgtacaact attgttaatg gcatgaagag atctttctat 7500 
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gtctatgcaa 


atggaggccg 


tggcttctgc 


aagactcaca 


attggaattg tctcaattgt 


7560 


gacacatttt 


gcactggtag 


tacattcatt 


agtgatgaag 


ttgctcgtga tttgtcactc 


7620 


cagtttaaaa 


gaccaatcaa 


ccctactgac 


cagtcatcgt 


atattgttga tagtgttgct 


7680 


gtgaaaaatg 


gcgcgcttca 


cctctacttt 


gacaaggctg 


gtcaaaagac ctatgagaga 


7740 


catccgctct 


cccattttgt 


caatttagac 


aatttgagag 


ctaacaacac taaaggttca 


7800 


ctgcctatta 


atgtcatagt 


ttttgatggc 


aagtccaaat 


gcgacgagtc tgcttctaag 


7860 


tctgcttctg 


tgtactacag 


tcagctgatg 


tgccaaccta 


ttctgttgct tgaccaagct 


7920 


cttgtatcag 


acgttggaga 


tagtactgaa 


gtttccgtta 


agatgtttga tgcttatgtc 


7980 


gacacctttt 


cagcaacttt 


tagtgttcct 


atggaaaaac 


ttaaggcact tgttgctaca 


8040 


gctcacagcg 


agttagcaaa 


gggtgtagct 


ttagatggtg 


tcctttctac attcgtgtca 


8100 


gctgcccgac 


aaggtgttgt 


tgataccgat 


gttgacacaa 


aggatgttat tgaatgtctc 


8160 


aaactttcac 


atcactctga 


cttagaagtg 


acaggtgaca 


gttgtaacaa tttcatgctc 


8220 


acctataata 


aggttgaaaa 


catgacgccc 


agagatcttg 


gcgcatgtat tgactgtaat 


8280 


gcaaggcata 


tcaatgccca 


agtagcaaaa 


agtcacaatg 


tttcactcat ctggaatgta 


8340 


aaagactaca 


tgtctttatc 


tgaacagctg 


cgtaaacaaa 


ttcgtagtgc tgccaagaag 


8400 


aacaacatac 


cttttagact 


aacttgtgct 


acaactagac 


aggttgtcaa tgtcataact 


8460 


actaaaatct 


cactcaaggg 


tggtaagatt 


gttagtactt 


gttttaaact tatgcttaag 


8520 


gccacattat 


tgtgcgttct 


tgctgcattg 


gtttgttata 


tcgttatgcc agtacataca 


8580 


ttgtcaatcc 


atgatggtta 


cacaaatgaa 


atcattggtt 


acaaagccat tcaggatggt 


8640 


gtcactcgtg 


acatcatttc 


tactgatgat 


tgttttgcaa 


ataaacatgc tggttttgac 


8700 


gcatggttta 


gccagcgtgg 


tggttcatac 


aaaaatgaca 


aaagctgccc tgtagtagct 


8760 


gctatcatta 


caagagagat 


tggtttcata 


gtgcctggct 


taccgggtac tgtgctgaga 


8820 


gcaatcaatg 


gtgacttctt 


gcattttcta 


cctcgtgttt 


utagtgctgt tggcaacatt 


8880 


tgctacacac 


cttccaaact 


cattgagtat 


agtgattttg 


ctacctctgc ttgcgttctt 


8940 


gctgctgagt 


gtacaatttt 


taaggatgct 


atgggcaaac 


ctgtgccata ttgttatgac 


9000 


actaatttgc 


tagagggttc 


tatttcttat 


agtgagcttc 


gtccagacac tcgttatgtg 


9060 


cttatggatg 


gttccatcat 


acagtttcct 


aacacttacc 


tggagggttc tgttagagta 


9120 


gtaacaactt 


ttgatgctga 


gtactgtaga 


catggtacat 


gcgaaaggtc agaagtaggt 


9180 


atttgcctat 


ctaccagtgg 


tagatgggtt 


cttaataatg 


agcattacag agctctatca 


9240 


ggagttttct 


gtggtgttga 


tgcgatgaat 


ctcatagcta 


acatctttac tcctcttgtg 


9300 


caacctgtgg 


gtgctttaga 


tgtgtctgct 


tcagtagtgg 


ctggtggtat tattgccata 


9360 


ttggtgactt 


gtgctgccta 


ctactttatg 


aaattcagac 


gtgtttttgg tgagtacaac 


9420 


catgttgttg 


ctgctaatgc 


acttttgttt 


ttgatgtctt 


tcactatact ctgtctggta 


9480 


ccagcttaca 


gctttctgcc 


gggagtctac 


tcagtctttt 
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ttcaccaatg atgtttcatt cttggctcac cttcaatggt ttgccatgtt ttctcctatt 9600 

gtgccttttt ggataacagc aatctatgta ttctgtattt ctctgaagca ctgccattgg 9660 

ttctttaaca actatcttag gaaaagagtc atgtttaatg gagttacatt tagtaccttc 9720 

gaggaggctg ctttgtgtac ctttttgctc aacaaggaaa tgtacctaaa attgcgtagc 9780 

gagacactgt tgccacttac acagtataac aggtatcttg ctctatataa caagtacaag 9840 

tatttcagtg gagccttaga tactaccagc tatcgtgaag cagcttgctg ccacttagca 9900 

aaggctctaa atgactttag caactcaggt gctgatgttc tctaccaacc accacagaca 9960 

ncaatcactt ctgctgttct gcagagtggt tttaggaaaa tggcattccc gtcaggcaaa 10020 

gttgaagggt gcatggtaca agtaacctgt ggaactacaa ctcttaatgg attgtggttg 10080 

gatgacacag tatactgtcc aagacatgtc atttgcacag cagaagacat gcttaatcct 10140 

aactatgaag atctgctcat tcgcaaatcc aaccatagct ttcttgttca ggctggcaat 10200 

gttcaacttc gtgttattgg ccattctatg caaaattgtc tgcttaggct taaagttgat 10260 

acttctaacc ctaagacacc caagtataaa tttgtccgta tccaacctgg tcaaacattt 10320 

txagttctag catgctacaa tggttcacca tctggtgttt atcagtgtgc catgagacct 10380 

aatcatacca ttaaaggttc tttccttaat ggatcatgtg gtagtgttgg ttttaacatt 10440 

gattatgatt gcgtgtcttt ctgctatatg catcatatgg agcttccaac aggagtacac 10500 

gctggtactg acttagaagg taaattctat ggtccatttg ttgacagaca aactgcacag 10560 

gctgcaggta cagacacaac cataacatta aatgttttgg catggctgta tgctgctgtt 10620 

atcaatggtg ataggtggtt tcttaataga ttcaccacta ctttgaatga ctttaacctt 10680 

gtggcaatga agtacaacta tgaacctttg acacaagatc atgttgacat attgggacct 10740 

ctttctgctc aaacaggaat tgccgtctta gatatgtgtg ctgctttgaa agagctgctg 10800 

cagaatggta tgaatggtcg tactatcctt ggtagcacta ttttagaaga tgagtttaca 10860 

ccatttgatg ttgttagaca atgctctggt gttaccttcc aaggtaagtt caagaaaatt 10920 

gttaagggca ctcatcattg gatgctttta actttcttga catcactatt gattcttgtt 10980 

caaagtacac agtggtcact gtttttcttt gtttacgaga atgctttctt gccatttact 11040 

cttggtatta tggcaattgc tgcatgtgct atgctgcttg ttaagcataa gcacgcattc 11100 

ttgtgcttgt ttctgttacc ttctcttgca acagttgctt actttaatat ggtctacatg 11160 

cctgctagct gggtgatgcg tatcatgaca tggcttgaat tggctgacac tagcttgtct 11220 

ggttataggc ttaaggattg tgttatgtat gcttcagctt tagttttgct tattctcatg 11280 

acagctcgca ctgtttatga tgatgctgct agacgtgttt ggacactgat gaatgtcatt 11340 

acacttgttt acaaagtcta ctatggtaat gctttagatc aagctatttc catgtgggcc 11400 

ttagttattt ctgtaacctc taactattct ggtgtcgtta cgactatcat gtttttagct 11460 

agagctatag tgtttgtgtg tgttgagtat tacccattgt tafttattac tggcaacacc 11520 

ttacagtgta tcatgcttgt ttattgtttc ttaggctatt gttgctgctg ctactttggc 11580 
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cttttctgtt tactcaaccg ttacttcagg cttactcttg gtgtttatga ctacttggtc 11640 

tctacacaag aatttaggta tatgaactcc caggggcttt tgcctcctaa gagtagtatt 11700 

gatgctttca agcttaacat taagttgttg ggtattggag gtaaaccatg tatcaaggtt 11760 

gctactgtac agtctaaaat gtctgacgta aagtgcacat ctgtggtact gctctcggtt 11820 

cttcaacaac ttagagtaga gtcatcttct aaattgtggg cacaatgtgt acaactccac 11880 

aatgatattc ttcttgcaaa agacacaact gaagctttcg agaagatggt ttctcttttg 11940 

tctgttttgc tatccatgca gggtgctgta gacattaata ggttgtgcga ggaaatgctc 12000 

gataaccgtg ctactcttca ggctattgct tcagaattta gttctttacc atcatatgcc 12060 

gcttatgcca ctgcccagga ggcctatgag caggctgtag ctaatggtga ttctgaagtc 12120 

gttctcaaaa agttaaagaa atctttgaat gtggctaaat ctgagtttga ccgtgatgct 12180 

gccatgcaac gcaagttgga aaagatggca gatcaggcta tgacccaaat gtacaaacag 12240 

gcaagatctg aggacaagag ggcaaaagta actagtgcta tgcaaacaat gctcttcact 12300 

atgcttagga agcttgataa tgatgcactt aacaacatta tcaacaatgc gcgtgatggt 12360 

tgtgttccac tcaacatcat accattgact acagcagcca aactcatggt tgttgtccct 12420 

gattatggta cctacaagaa cacttgtgat ggtaacacct ttacatatgc atctgcactc 12480 

tgggaaatcc agcaagttgt tgatgcggat agcaagattg ttcaacttag tgaaattaac 12540 

atggacaatt caccaaattt ggcttggcct cttattgtta cagctctaag agccaactca 12600 

gctgttaaac tacagaataa tgaactgagt ccagtagcac tacgacagat gtcctgtgcg 12660 

gctggtacca cacaaacagc ttgtactgat gacaatgcac ttgcctacta taacaattcg 12720 

aagggaggta ggtttgtgct ggcattacta tcagaccacc aagatctcaa atgggctaga 12780 

ttccctaaga gtgatggtac aggtacaatt tacacagaac tggaaccacc ttgtaggttt 12840 

gttacagaca caccaaaagg gcctaaagtg aaatacttgt acttcatcaa aggcttaaac 12900 

aacctaaata gaggtatggt gctgggcagt ttagctgcta cagtacgtct tcaggctgga 12960 

aatgctacag aagtacctgc caattcaact gtgctttcct tctgtgcttt tgcagtagac 13020 

cctgctaaag catataagga ttacctagca agtggaggac aaccaatcac caactgtgtg 13080 

aagatgttgt gtacacacac tggtacagga caggcaatta ctgtaacacc agaagctaac 13140 

atggaccaag agtcctttgg tggtgcttca tgttgtctgt attgtagatg ccacattgac 13200 

catccaaatc ctaaaggatt ctgtgacttg aaaggtaagt acgtccaaat acctaccact 13260 

tgtgctaatg acccagtggg ttttacactt agaaacacag tctgtaccgt ctgcggaatg 13320 

tggaaaggtt atggctgtag ttgtgaccaa ctccgcgaac ccttgatgca gtctgcggat 13380 

gcatcaacgt ttttaaacgg gtttgcggtg taagtgcagc ccgtcttaca ccgtgcggca 13440 

caggcactag tactgatgtc gtctacaggg cttttgatat ttacaacgaa aaagttgctg 13500 

gttttgcaaa gttcctaaaa actaattgct gtcgcttcca ggagaaggat gaggaaggca 13560 

atttattaga ctcttacttt gtagttaaga ggcatactat gtctaactac caacatgaag 13620 
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agactattta taacttggtt aaagattgtc cagcggttgc tgtccatgac tttttcaagt 13680 

ttagagtaga tggtgacatg gtaccacata tatcacgtca gcgtctaact aaatacacaa 13740 

tggctgattt agtctatgct ctacgtcatt ttgatgaggg taattgtgat acattaaaag 13800 

aaatactcgt cacatacaat tgctgtgatg atgattattt caataagaag gattggtatg 13860 

acttcgtaga gaatcctgac atcttacgcg tatatgctaa cttaggtgag cgtgtacgcc 13920 

aatcattatt aaagactgta caattctgcg atgctatgcg tgatgcaggc attgtaggcg 13980 

tactgacatt agataatcag gatcttaatg ggaactggta cgatttcggt gatttcgtac 14040 

aagtagcacc aggctgcgga gttcctattg tggattcata ttactcattg ctgatgccca 14100 

tcctcacttt gactagggca ttggctgctg agtcccatat ggatgctgat ctcgcaaaac 14160 

cacttattaa gtgggatttg ctgaaatatg attttacgga agagagactt tgtctcttcg 14220 

accgttattt taaatattgg gaccagacat accatcccaa ttgtattaac tgtttggatg 14280 

ataggtgtat ccttcattgt gcaaacttta atgtgttatt ttctactgtg tttccaccta 14340 

caagttttgg accactagta agaaaaatat ttgtagatgg tgttcctttt gttgtttcaa 14400 

ctggatacca ttttcgtgag ttaggagtcg tacataatca ggatgtaaac ttacatagct 14460 

cgcgtctcag tttcaaggaa cttttagtgt atgctgctga tccagctatg catgcagctt 14520 

ctggcaattt attgctagat aaacgcacta catgcttttc agtagctgca ctaacaaaca 14580 

atgttgcttt tcaaactgtc aaacccggta attttaataa agacttttat gactttgctg 14640 

tgtctaaagg tttctttaag gaaggaagtt ctgttgaact aaaacacttc ttctttgctc 14700 

aggatggcaa cgctgctatc agtgattatg actattatcg ttataatctg ccaacaatgt 14760 

gtgatatcag acaactccta ttcgtagttg aagttgttga taaatacttt gattgttacg 14820 

atggtggctg tattaatgcc aaccaagtaa tcgttaacaa tctggataaa tcagctggtt 14880 

tcccatttaa taaatggggt aaggctagac tttattatga ctcaatgagt tatgaggatc 14940 

aagatgcact tttcgcgtat actaagcgta atgtcatccc tactataact caaatgaatc 15000 

ttaagtatgc cattagtgca aagaatagag ctcgcaccgt agctggtgtc tctatctgta 15060 

gtactatgac aaatagacag tttcatcaga aattattgaa gtcaatagcc gccactagag 15120 

gagctactgt ggtaattgga acaagcaagt tttacggtgg ctggcataat atgttaaaaa 15180 

ctgtttacag tgatgtagaa actccacacc ttatgggttg ggattatcca aaatgtgaca 15240 

gagccatgcc taacatgctt aggataatgg cctctcttgt tcttgctcgc aaacataaca 15300 

cttgctgtaa cttatcacac cgtttctaca ggttagctaa cgagtgtgcg caagtattaa 15360 

gtgagatggt catgtgtggc ggctcactat atgttaaacc aggtggaaca tcatccggtg 15420 

atgctacaac tgcttatgct aatagtgtct ttaacatttg tcaagctgtt acagccaatg 15480 

taaatgcact tctttcaact gatggtaata agatagctga caagtatgtc cgcaatctac 15540 

aacacaggct ctatgagtgt ctctatagaa atagggatgt tgatcatgaa ttcgtggatg 15600 

agttttacgc ttacctgcgt aaacatttct ccatgatgat tctttctgat gatgccgttg 15660 
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tgtgctataa 

cagttcttta 

accttactaa 

atgattacgt 

tcgatgatat 

ttgatgctta 

atttacaata 

ccgtaatgct 

tgtacacacc 

cttcacttcg 

accatgtcat 

ccccaggttg 

gcaagtcaca 

tatacaaaaa 

gtgattggac 

ttttcgcagc 

ccactgtacg 

ctagaccacc 

aagtacagat 

gaggtactac 

taatgccact 

tgtacccaac 

tcggcatgca 

ccatcggact 

cagctgttga 

gaatcatacc 

tagaacagta 

tctttgatga 

gtgcaaaaca 

tgactaaagg 

taggtccaga 

tgagtgcttt 

tcaaaatgtt 

aaataggcgt 



cagtaactat 

ttatcaaaat 

aggacctcac 

gtacctgcct 

tgtcaaaaca 

cccacttaca 

cattagaaag 

aactaatgat 

acatacagtc 

ttgcggtgcc 

ttcaacatca 

tgatgtcact 

taagcctccc 

cacatgtgta 

taatgctggc 

agaaacgctc 

cgaagtactc 

attgaacaga 

tggagagtac 

gacatacaag 

tagtgcacct 

actcaacatc 

aaagtactct 

tgctctctat 

tgccctatgt 

tgcgcgtgcg 

tgttttctgc 

aatctctatg 

ctacgtctat 

cacactagaa 

catgttcctt 

agtttatgac 

ctacaaaggt 

tgtaagagaa 



gcggctcaag 
aatgtgttca 
gaattttgct 
tacccagatc 
gatggtacac 
aaacatccta 
ttacatgatg 
aacacctcac 
ttgcaggctg 
tgtattagga 
cacaaattag 
gatgtgacac 
attagttttc 
ggcagtgaca 
gattacatac 
aaagccactg 
tctgacagag 
aactatgtct 
acctttgaaa 
ttgaatgttg 
actctagtgc 
tcagatgagt 
acactccaag 
tacccatctg 
gaaaaggcat 
cgcgtagagt 
actgtaaatg 
gctactaatt 
attggcgatc 
ccagaatatt 
ggaacttgtc 
aataagctaa 
gttattacac 
tttcttacac 
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gtttagtagc 

tgtctgaggc 

cacagcatac 

catcaagaat 

ttatgattga 

atcaggagta 

agcttactgg 

ggtactggga 

taggtgcttg 

gaccattcct 

tgttgtctgt 

aactgtatct 

cattatgtgc 

atgtcactga 

ttgccaacac 

aggaaacatt 

aattgcatct 

ttactggtta 

aaggtgacta 

gtgattactt 

cacaagagca 

tttctagcaa 

gaccacctgg 

ctcgcatagt 

taaaatattt 

gttttgataa 

cattgccaga 

atgacttgag 

ctgctcaatt 

ttaattcagt 

gccgttgtcc 

aagcacacaa 

atgatgtttc 

gcaatcctgc 
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tagcattaag 
aaaatgttgg 
aatgctagtt 
attaggcgca 
aaggttcgtg 
tgctgatgtc 
ccacatgttg 
acctgagttt 
tgtattgtgc 
atgttgcaag 
taatccctat 
aggaggtatg 
taatggtcag 
cttcaatgcg 
ttgtactgag 
taagctgtca 
ttcatgggag 
ccgtgtaact 
tggtgatgct 
tgtgttgaca 
ctatgtgaga 
tgttgcaaat 
tactggtaag 
gtatacggca 
gcccatagat 
attcaaagtg 
aacaactgct 
tgttgtcaat 
accagccccc 
gtgcagactt 
tgctgaaatt 
ggataagtca 
atctgcaatc 
ttggagaaaa 



aactttaagg 

actgagactg 

aaacaaggag 

ggctgttttg 

tcactggcta 

tttcacttgt 

gacatgtatt 

tatgaggcta 

aattcacaga 

tgctgctatg 

gtttgcaatg 

agctattatt 

gtttttggtt 

atagcaacat 

agactcaagc 

tatggtattg 

gttggaaaac 

aaaaatagta 

gttgtgtaca 

tctcacactg 

attactggct 

tatcaaaagg 

agtcattttg 

tgctctcatg 

aaatgtagta 

aattcaacac 

gacattgtag 

gctagacttc 

cgcacattgc 

atgaaaacaa 

gttgacactg 

gctcaatgct 

aacagacctc 

gctgttttta 



15720 

15780 

15840 

15900 

15960 

16020 

16080 

16140 

16200 

16260 

16320 

16380 

16440 

16500 

16560 

16620 

16680 

16740 

16800 

16860 

16920 

16980 

17040 

17100 

17160 

17220 

17280 

17340 

17400 

17460 

17520 

17580 

17640 

17700 
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tctcacctta taattcacag aacgctgtag cttcaaaaat cttaggattg cctacgcaga 17760 

ctgttgattc atcacagggt tctgaatatg actatgtcat attcacacaa actactgaaa 17820 

cagcacactc ttgtaatgtc aaccgcttca atgtggctat cacaagggca aaaattggca 17880 

ttttgtgcat aatgtctgat agagatcttt atgacaaact gcaatttaca agtctagaaa 17940 

taccacgtcg caatgtggct acattacaag cagaaaatgt aactggactt tttaaggact 18000 

gtagtaagat cattactggt cttcatccta cacaggcacc tacacacctc agcgttgata 18060 

taaagttcaa gactgaagga ttatgtgttg acataccagg cataccaaag gacatgacct 18120 

accgtagact catctctatg atgggtttca aaatgaatta ccaagtcaat ggttacccta 18180 

atatgtttat cacccgcgaa gaagctattc gtcacgttcg tgcgtggatt ggctttgatg 18240 

tagagggctg tcatgcaact agagatgctg tgggtactaa cctacctctc cagctaggat 18300 

tttctacagg tgttaactta gtagctgtac cgactggtta tgttgacact gaaaataaca 18360 

cagaattcac cagagttaat gcaaaacctc caccaggtga ccagtttaaa catcttatac 18420 

cactcatgta taaaggcttg ccctggaatg tagtgcgtat taagatagta caaatgctca 18480 

gtgatacact gaaaggattg tcagacagag tcgtgttcgt cctttgggcg catggctttg 18540 

agcttacatc aatgaagtac tttgtcaaga ttggacctga aagaacgtgt tgtctgtgtg 18600 

acaaacgtgc aacttgcttt tctacttcat cagatactta tgcctgctgg aatcattctg 18660 

tgggttttga ctatgtctat aacccattta tgattgatgt tcagcagtgg ggctttacgg 18720 

gtaaccttca gagtaaccat gaccaacatt gccaggtaca tggaaatgca catgtggcta 18780 

gttgtgatgc tatcatgact agatgtttag cagtccatga gtgctttgtt aagcgcgttg 18840 

attggtctgt tgaataccct attataggag atgaactgag ggttaattct gcttgcagaa 18900 

aagtacaaca catggttgtg aagtctgcat tgcttgctga taagtttcca gttcttcatg 18960 

acattggaaa tccaaaggct atcaagtgtg tgcctcaggc tgaagtagaa tggaagttct 19020 

acgatgctca gccatgtagt gacaaagctt acaaaataga ggaactcttc tattcttatg 19080 

ctacacatca cgataaattc actgatggtg tttgtttgtt ttggaattgt aacgttgatc 19140 

gttacccagc caatgcaatt gtgtgtaggt ttgacacaag agtcttgtca aacttgaact 19200 

taccaggctg tgatggtggt agtttgtatg tgaataagca tgcattccac actccagctt 19260 

tcgataaaag tgcatttact aatttaaagc aattgccttt cttttactat tctgatagtc 19320 

cttgtgagtc tcatggcaaa caagtagtgt cggatattga ttatgttcca ctcaaatctg 19380 

ctacgtgtat tacacgatgc aatttaggtg gtgctgtttg cagacaccat gcaaatgagt 19440 

accgacagta cttggatgca tataatatga tgatttctgc tggatttagc ctatggattt 19500 

acaaacaatt tgatacttat aacctgtgga atacatttac caggttacag agtttagaaa 19560 

atgtggctta taatgttgtt aataaaggac actttgatgg acacgccggc gaagcacctg 19620 

tttccatcat taataatgct gtttacacaa aggtagatgg tattgatgtg gagatctttg 19680 

aaaataagac aacacttcct gttaatgttg catttgagct ttgggctaag cgtaacatta 19740 
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aaccagtgcc agagattaag atactcaata atttgggtgt tgatatcgct gctaatactg 19800 

taatctggga ctacaaaaga gaagccccag cacatgtatc tacaataggt gtctgcacaa 19860 

tgactgacat tgccaagaaa cctactgaga gtgcttgttc ttcacttact gtcttgtttg 19920 

atggtagagt ggaaggacag gtagaccttt ttagaaacgc ccgtaatggt gttttaataa 19980 

cagaaggttc agtcaaaggt ctaacacctt caaagggacc agcacaagct agcgtcaatg 20040 

gagtcacatt aattggagaa tcagtaaaaa cacagtttaa ctactttaag aaagtagacg 20100 

gcattattca acagttgcct gaaacctact ttactcagag cagagactta gaggatttta 20160 

agcccagatc acaaatggaa actgactttc tcgagctcgc tatggatgaa ttcatacagc 20220 

gatataagct cgagggctat gccttcgaac acatcgttta tggagatttc agtcatggac 20280 

aacttggcgg tcttcattta atgataggct tagccaagcg ctcacaagat tcaccactta 20340 

aattagagga ttttatccct atggacagca cagtgaaaaa ttacttcata acagatgcgc 20400 

aaacaggttc atcaaaatgt gtgtgttctg tgattgatct tttacttgat gactttgtcg 20460 

agataataaa gtcacaagat ttgtcagtga tttcaaaagt ggtcaaggtt acaattgact 20520 

atgctgaaat ttcattcatg ctttggtgta aggatggaca tgttgaaacc ttctacccaa 20580 

aactacaagc aagtcaagcg tggcaaccag gtgttgcgat gcctaacttg tacaagatgc 20640 

aaagaatgct tcttgaaaag tgtgaccttc agaattatgg tgaaaatgct gttataccaa 20700 

aaggaataat gatgaatgtc gcaaagtata ctcaactgtg tcaatactta aatacactta 20760 

ctttagctgt accctacaac atgagagtta ttcactttgg tgctggctct gataaaggag 20820 

ttgcaccagg tacagctgtg ctcagacaat ggttgccaac tggcacacta cttgtcgatt 20880 

cagatcttaa tgacttcgtc tccgacgcag attctacttt aattggagac tgtgcaacag 20940 

tacatacggc taataaatgg gaccttatta ttagcgatat gtatgaccct aggaccaaac 21000 

atgtgacaaa agagaatgac tctaaagaag ggtttttcac ttatctgtgt ggatttataa 21060 

agcaaaaact agccctgggt ggttctatag ctgtaaagat aacagagcat tcttggaatg 21120 

ctgaccttta caagcttatg ggccatttct catggtggac agcttttgtt acaaatgtaa 21180 

atgcatcatc atcggaagca tttttaattg gggctaacta tcttggcaag ccgaaggaac 21240 

aaattgatgg ctataccatg catgctaact acattttctg gaggaacaca aatcctatcc 21300 

agttgtcttc ctattcactc tttgacatga gcaaatttcc tcttaaatta agaggaactg 21360 

ctgtaatgtc tcttaaggag aatcaaatca atgatatgat ttattctctt ctggaaaaag 21420 

gtaggcttat cattagagaa aacaacagag ttgtggtttc aagtgatatt cttgttaaca 21480 

actaaacgaa catgtttatt ttcttattat ttcttactct cactagtggt agtgaccttg 21540 

accggtgcac cacttttgat gatgttcaag ctcctaatta cactcaacat acttcatcta 21600 

tgaggggggt ttactatcct gatgaaattt ttagatcaga cactctttat ttaactcagg 21660 

atttatttct tccattttat tctaatgtta cagggtttca tactattaat catacgtttg 21720 

gcaaccctgt catacctttt aaggatggta tttattttgc tgccacagag aaatcaaatg 21780 
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ttgtccgtgg ttgggttttt ggttctacca tgaacaacaa gtcacagtcg gtgattatta 21840 

ttaacaattc tactaatgtt gttatacgag catgtaactt tgaattgtgt gacaaccctt 21900 

tctttgctgt ttctaaaccc atgggtacac agacacatac tatgatattc gataatgcat 21960 

ttaattgcac tttcgagtac atatctgatg ccttttcgct tgatgtttca gaaaagtcag 22020 

gtaattttaa acacttacga gagtttgtgt ttaaaaataa agatgggttt ctctatgttt 22080 

ataagggcta tcaacctata gatgtagttc gtgatctacc ttctggtttt aacactttga 22140 

aacctatttt taagttgcct cttggtatta acattacaaa ttttagagcc attcttacag 22200 

ccttttcacc tgctcaagac atttggggca cgtcagctgc agcctatttt gttggctatt 22260 

taaagccaac tacatttatg ctcaagtatg atgaaaatgg tacaatcaca gatgctgttg 22320 

attgttctca aaatccactt gctgaactca aatgctctgt taagagcttt gagattgaca 22380 

aaggaattta ccagacctct aatttcaggg ttgttccctc aggagatgtt gtgagattcc 22440 

ctaatattac aaacttgtgt ccttttggag aggtttttaa tgctactaaa ttcccttctg 22500 

tctatgcatg ggagagaaaa aaaatttcta attgtgttgc tgattactct gtgctctaca 22560 

actcaacatt tttttcaacc tttaagtgct atggcgtttc tgccactaag ttgaatgatc 22620 

tttgcttctc caatgtctat gcagattctt ttgtagtcaa gggagatgat gtaagacaaa 22680 

tagcgccagg acaaactggt gttattgctg attataatta taaattgcca gatgatttca 22740 

tgggttgtgt ccttgcttgg aatactagga acattgatgc tacttcaact ggtaattata 22800 

attataaata taggtatctt agacatggca agcttaggcc ctttgagaga gacatatcta 22860 

atgtgccttt ctcccctgat ggcaaacctt gcaccccacc tgctcttaat tgttattggc 22920 

cattaaatga ttatggtttt tacaccacta ctggcattgg ctaccaacct tacagagttg 22980 

tagtactttc ttttgaactt ttaaatgcac cggccacggt ttgtggacca aaattatcca 23040 

ctgaccttat taagaaccag tgtgtcaatt ttaattttaa tggactcact ggtactggtg 23100 

tgttaactcc ttcttcaaag agatttcaac catttcaaca atttggccgt gatgtttctg 23160 

atttcactga ttccgttcga gatcctaaaa catctgaaat attagacatt tcaccttgct 23220 

cttttggggg tgtaagtgta attacacctg gaacaaatgc ttcatctgaa gttgctgttc 23280 

tatatcaaga tgttaactgc actgatgttt ctacagcaat tcatgcagat caactcacac 23340 

cagcttggcg catatattct actggaaaca atgtattcca gactcaagca ggctgtctta 23400 

taggagctga gcatgtcgac acttcttatg agtgcgacat tcctattgga gctggcattt 23460 

gtgctagtta ccatacagtt tctttattac gtagtactag ccaaaaatct attgtggctt 23520 

atactatgtc tttaggtgct gatagttcaa ttgcttactc taataacacc attgctatac 23580 

ctactaactt ttcaattagc attactacag aagtaatgcc tgtttctatg gctaaaacct 23640 

ccgtagattg taatatgtac atctgcggag attctactga atgtgctaat ttgcttctcc 23700 

aatatggtag cttttgcaca caactaaatc gtgcactctc aggtattgct gctgaacagg 23760 

atcgcaacac acgtgaagtg ttcgctcaag tcaaacaaat gtacaaaacc ccaactttga 23820 
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aatattttgg tggttttaat ttttcacaaa tattacctga ccctctaaag ccaactaaga 23880 

ggtcttttat tgaggacttg ctctttaata aggtgacact cgctgatgct ggcttcatga 23940 

agcaatatgg cgaatgccta ggtgatatta atgctagaga tctcatttgt gcgcagaagt 24000 

tcaatggact tacagtgttg ccacctctgc tcactgatga tatgattgct gcctacactg 24060 

ctgctctagt tagtggtact gccactgctg gatggacatt tggtgctggc gctgctcttc 24120 

aaataccttt tgctatgcaa atggcatata ggttcaatgg cattggagtt acccaaaatg 24180 

ttctctatga gaaccaaaaa caaatcgcca accaatttaa caaggcgatt agtcaaattc 24240 

aagaatcact tacaacaaca tcaactgcat tgggcaagct gcaagacgtt gttaaccaga 24300 

atgctcaagc attaaacaca cttgttaaac aacttagctc taattttggt gcaatttcaa 24360 

gtgtgctaaa tgatatcctt tcgcgacttg ataaagtcga ggcggaggta caaattgaca 24420 

ggttaattac aggcagactt caaagccttc aaacctatgt aacacaacaa ctaatcaggg 24480 

ctgctgaaat cagggcttct gctaatcttg ctgctactaa aatgtctgag tgtgttcttg 24540 

gacaatcaaa aagagttgac ttttgtggaa agggctacca ccttatgtcc ttcccacaag 24600 

cagccccgca tggtgttgtc ttcctacatg tcacgtatgt gccatcccag gagaggaact 24660 

tcaccacago gccagcaatt tgtcatgaag gcaaagcata cttccctcgt gaaggtgttt 24720 

ttgtgtttaa tggcacttct tggtttatta cacagaggaa cttcttttct ccacaaataa 24780 

ttactacaga caatacattt gtctcaggaa attgtgatgt cgttattggc atcattaaca 24840 

acacagttta tgatcctctg caacctgagc ttgactcatt caaagaagag ctggacaagt 24900 

acttcaaaaa tcatacatca ccagatgttg atcttggcga catttcaggc attaacgctt 24960 

ctgtcgtcaa cattcaaaaa gaaattgacc gcctcaatga ggtcgctaaa aatttaaatg 25020 

aatcactcat tgaccttcaa gaattgggaa aatatgagca atatattaaa tggccttggt 25080 

atgtttggct cggcttcatt gctggactaa ttgccatcgt catggttaca atcttgcttt 25140 

gttgcatgac tagttgttgc agttgcctca agggtgcatg ctcttgtggt tcttgctgca 25200 

agtttgatga ggatgactct gagccagttc tcaagggtgt caaattacat tacacataaa 25260 

cgaacttatg gatttgttta tgagattttt tactcttgga tcaattactg cacagccagt 25320 

aaaaattgac aatgcttctc ctgcaagtac tgttcatgct acagcaacga taccgctaca 25380 

agcctcactc cctttcggat ggcttgttat tggcgttgca tttcttgctg tttttcagag 25440 

cgctaccaaa ataattgcgc tcaataaaag atggcagcta gccctttata agggcttcca 25500 

gttcatttgc aatttactgc tgctatttgt taccatctat tcacatcttt tgcttgtcgc 25560 

tgcaggtatg gaggcgcaat ttttgtacct ctatgccttg atatattttc tacaatgcat 25620 

caacgcatgt agaattatta tgagatgttg gctttgttgg aagtgcaaat ccaagaaccc 25680 

attactttat gatgccaact actttgtttg ctggcacaca cataactatg actactgtat 25740 

accatataac agtgtcacag atacaattgt cgttactgaa ggtgacggca tttcaacacc 25800 

aaaactcaaa gaagactacc aaattggtgg ttattctgag gataggcact caggtgttaa 25860 
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agactatgtc gttgtacatg gctatttcac cgaagtttac taccagcttg agtctacaca 25920 

aattactaca gacactggta ttgaaaatgc tacattcttc atctttaaca agcttgttaa 25980 

agacccaccg aatgtgcaaa tacacacaat cgacggctct tcaggagttg ctaatccagc 26040 

aatggatcca atttatgatg agccgacgac gactactagc gtgcctttgt aagcacaaga 26100 

aagtgagtac gaacttatgt actcattcgt ttcggaagaa acaggtacgt taatagttaa 26160 

tagcgtactt ctttttcttg ctttcgtggt attcttgcta gtcacactag ccatccttac 26220 

tgcgcttcga ttgtgtgcgt actgctgcaa tattgttaac gtgagtttag taaaaccaac 26280 

ggtttacgtc tactcgcgtg ttaaaaatct gaactcttct gaaggagttc ctgatcttct 26340 

ggtctaaacg aactaactat tattattatt ctgtttggaa ctttaacatt gcttatcatg 26400 

gcagacaacg gtactattac cgttgaggag cttaaacaac tcctggaaca atggaaccta 26460 

gtaataggtt tcctattcct agcctggatt atgttactac aatttgccta ttctaatcgg 26520 

aacaggtttt tgtacataat aaagcttgtt ttcctctggc tcttgtggcc agtaacactt 26580 

gcttgttttg tgcttgctgc tgtctacaga attaattggg tgactggcgg gattgcgatt 26640 

gcaatggctt gtattgtagg cttgatgtgg cttagctact tcgttgcttc cttcaggctg 26700 

tttgctcgta cccgctcaat gtggtcattc aacccagaaa caaacattct tctcaatgtg 26760 

cctctccggg ggacaattgt gaccagaccg ctcatggaaa gtgaacttgt cattggtgct 26820 

gtgatcattc gtggtcactt gcgaatggcc ggacactccc tagggcgctg tgacattaag 26880 

gacctgccaa aagagatcac tgtggctaca tcacgaacgc tttcttatta caaattagga 26940 

gcgtcgcagc gtgtaggcac tgattcaggt tttgctgcat acaaccgcta ccgtattgga 27000 

aactataaat taaatacaga ccacgccggt agcaacgaca atattgcttt gctagtacag 27060 

taagtgacaa cagatgtttc atcttgttga cttccaggtt acaatagcag agatattgat 27120 

tatcattatg aggactttca ggattgctat ttggaatctt gacgttataa taagttcaat 27180 

agtgagacaa ttatttaagc ctctaactaa gaagaattat tcggagttag atgatgaaga 27240 

acctatggag ttagattatc cataaaacga acatgaaaat tattctcttc ctgacattga 27300 

ttgtatttac atcttgcgag ctatatcact atcaggagtg tgttagaggt acgactgtac 27360 

tactaaaaga accttgccca tcaggaacat acgagggcaa ttcaccattt caccctcttg 27420 

ctgacaataa atttgcacta acttgcacta gcacacactt tgcttttgct tgtgctgacg 27480 

gtactcgaca tacctatcag ctgcgtgcaa gatcagtttc accaaaactt ttcatcagac 27540 

aagaggaggt tcaacaagag ctctactcgc cactttttct cattgttgct gctctagtat 27600 

ttttaatact ttgcttcacc attaagagaa agacagaatg aatgagctca ctttaattga 27660 

cttctatttg tgctttttag cctttctgct attccttgtt ttaataatgc ttattatatt 27720 

ttggttttca ctcgaaatcc aggatctaga agaaccttgt accaaagtct aaacgaacat 27780 

gaaacttctc attgttttga cttgtatttc tctatgcagt tgcatatgca ctgtagtaca 27840 

gcgctgtgca tctaataaac ctcatgtgct tgaagatcct tgtaaggtac aacactaggg 27900 
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gtaatactta tagcactgct tggctttgtg ctctaggaaa ggttttacct tttcatagat 27960 
ggcacactat ggttcaaaca tgcacaccta atgttactat caactgtcaa gatccagctg 28020 
gtggtgcgct tatagctagg tgttggtacc ttcatgaagg tcaccaaact gctgcattta 28080 
gagacgtact tgttgtttta aataaacgaa caaattaaaa tgtctgataa tggaccccaa 28140 
tcaaaccaac gtagtgcccc ccgcattaca tttggtggac ccacagattc aactgacaat 28200 
aaccagaatg gaggacgcaa tggggcaagg ccaaaacagc gccgacccca aggtttaccc 28260 
aataanactg cgtcttggtt cacagctctc actcagcatg gcaaggagga acttagattc 28320 
cctcgaggcc agggcgttcc aatcaacacc aatagtggtc cagatgacca aattggctac 28380 
taccgaagag ctacccgacg agttcgtggt ggtgacggca aaatgaaaga gctcagcccc 28440 
agatggtact tctattacct aggaactggc ccagaagctt cacttcccta cggcgctaac 28500 
aaagaaggca tcgtatgggt tgcaactgag ggagccttga atacacccaa agaccacatt 28560 
ggcacccgca atcctaataa caatgctgcc accgtgctac aacttcctca aggaacaaca 28620 
ttgccaaaag gcttctacgc agagggaagc agaggcggca gtcaagcctc ttctcgctcc 28680 
tcatcacgta gtcgcggtaa ttcaagaaat tcaactcctg gcagcagtag gggaaattct 28740 
cctgctcgaa tggctagcgg aggtggtgaa actgccctcg cgctattgct gctagacaga 28800 
ttgaaccagc ttgagagcaa agtttctggt aaaggccaac aacaacaagg ccaaactgtc 28860 
actaagaaat ctgctgctga ggcatctaaa aagcctcgcc aaaaacgtac tgccacaaaa 28920 
cagtacaacg tcactcaagc atttgggaga cgtggtccag aacaaaccca aggaaatttc 28980 
ggggaccaag acctaatcag acaaggaact gattacaaac attggccgca aattgcacaa 29040 
tttgctccaa gtgccuctgc attctttgga atgtcacgca ttggcatgga agtcacacct 29100 
tcgggaacat ggctgactta tcatggagcc attaaattgg atgacaaaga tccacaattc 29160 
aaagacaacg tcatactgct gaacaagcac attgacgcat acaaaacatt cccaccaaca 29220 
gagcctaaaa aggacaaaaa gaaaaagact gatgaagctc agcctttgcc gcagagacaa 29280 
aagaagcagc ccactgtgac tcttcttcct gcggctgaca tggatgattt ctccagacaa 29340 
cttcaaaatt ccatgagtgg agcttctgct gattcaactc aggcataaac actcatgatg 29400 
accacacaag gcagatgggc tatgtaaacg ttttcgcaat tccgtttacg atacatagtc 29460 
tactcttgtg cagaatgaat tctcgtaact aaacagcaca agtaggttta gttaacttta 29520 
atctcacata gcaatcttta atcaatgtgt aacattaggg aggacttgaa agagccacca 29580 
cattttcatc gaggccacgc ggagtacgat cgagggtaca gtgaataatg ctagggagag 29640 
ctgcctatat ggaagagccc taatgtgtaa aattaatttt agtagtgcta tccccatgtg 29700 
attttaatag cttcttagga gaatgacaaa aaaaaaaaaa aaaaaa 29746 

<210> 2<211> 3945<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
C89). -C3853)<223> 

<400> 2 
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ttctcttctg gaaaaaggta ggcttatcat tagagaaaac aacagagttg tggtttcaag 60 

tgatattctt gttaacaact aaacgaac atg ttt att ttc tta tta ttt ctt 112 

Met Phe lie Phe Leu Leu Phe Leu 
1 5 

act etc act agt gqt agt gac ctt gac egg tgc acc act ttt gat gat 160 



Thr Leu Thr Ser Gly Ser Asp Leu Asp Arg Cys Thr Thr Phe Asp Asp 
10 15 20 

gtt caa get cct aat tac act caa cat act tea tct atg agg ggg gtt 
Val Gin Ala Pro Asn Tyr Thr Gin His Thr Ser Ser Met Arg Gly val 
25 30 35 40 



teg ctt gat gtt tea gaa aag tea gqt aat ttt aaa cac tta cga gag 

Ser Leu Asp Val ser Glu Lys ser Gly Asn Phe Lys His Leu Arg Glu 

170 175 180 

ttt gtq ttt aaa aat aaa gat ggg ttt etc tat gtt tat aag ggc tat 

Phe val Phe Lys Asn Lys Asp Gly Phe Leu Tyr Val Tyr Lys Gly Tyr 

185 190 195 200 

caa cct ata gat gta gtt cgt gat eta cct tct ggt ttt aac act ttg 

Gin pro lie Asp val Val Arg Asp Leu Pro Ser Gly Phe Asn Thr Leu 

205 210 215 



gee att ctt aca gee ttt tea cct get caa gac att tgg ggc acg tea 
Ala lie Leu Thr Ala Phe ser Pro Ala Gin Asp lie Trp Gly Thr ser 
235 240 245 



208 



tac tat cct gat gaa att ttt aga tea gac act ctt tat tta act cag 256 
Tyr Tyr Pro Asp Glu lie Phe Arg ser Asp Thr Leu Tyr Leu Thr Gin 
45 50 55 



304 



352 



400 



gat tta ttt ctt cca ttt tat tct aat gtt aca ggg ttt cat act att 

Asp Leu Phe Leu Pro Phe Tyr ser Asn val Thr Gly Phe His Thr lie 
60 65 70 

aat cat acg ttt ggc aac cct gtc ata cct ttt aag gat ggt att tat 

Asn His Thr Phe Gly Asn Pro val lie Pro Phe Lys Asp Gly lie Tyr 
75 80 85 

ttt get gec aca gag aaa tea aat gtt gtc cgt ggt tgg gtt ttt ggt 

Phe Ala Ala Thr Glu Lys ser Asn Val Val Arg Gly Trp val Phe Gly 

90 95 100 

tct acc atg aac aac aag tea cag teg gtg att att att aac aat tct 448 

ser Thr Met Asn Asn Lys ser Gin ser Val lie lie lie Asn Asn ser 
105 110 115 120 

act aat gtt gtt ata cga gca tgt aac ttt gaa ttg tgt gac aac cct 496 

Thr Asn val val He Arg Ala Cys Asn Phe Glu Leu Cys Asp Asn Pro 
125 130 135 

ttc ttt get gtt tct aaa ccc atg ggt aca cag aca cat act atg ata 

Phe Phe Ala Val Ser Lys Pro Met Gly Thr Gin Thr His Thr Met lie 
140 145 150 



544 



ttc gat aat gca ttt aat tgc act ttc gag tac ata tct gat gec ttt 592 
Phe Asp Asn Ala Phe Asn cys Thr Phe Glu Tyr lie Ser Asp Ala Phe 
155 160 165 



640 



688 



736 



aaa cct att ttt aag ttg cct ctt ggt att aac att aca aat ttt aga 784 
Lys Pro He Phe Lys Leu Pro Leu Gly lie Asn lie Thr Asn Phe Arg 
220 225 230 



832 



get gca gee tat ttt gtt ggc tat tta aag cca act aca ttt atg etc 880 
Ala Ala Ala Tyr Phe val Gly Tyr Leu Lys Pro Thr Thr Phe Met Leu 
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250 255 260 

aag tat gat gaa aat got aca ate aca gat get gtt gat tgt tct caa 928 
Lys Tyr Asp Glu Asn Gly Thr lie Thr Asp Ala val Asp Cys ser Gin 
265 270 275 280 

aat cca ctt get gaa etc aaa tgc tct gtt aag age ttt gag att gac 976 
Asn Pro Leu Ala Glu Leu Lys cys Ser Val Lys ser Phe Glu lie Asp 
285 290 295 

aaa gga att tac cag ace tct aat ttc agg gtt gtt ccc tea gga gat 1024 
Lys Gly lie Tyr Gin Thr Ser Asn Phe Arg val Val Pro Ser cfy Asp 
300 305 310 

gtt gtg aga ttc cct aat att aca aac ttg tgt cct ttt gga gag gtt 1072 
val Val Arg Phe Pro Asn He Thr Asn Leu Cys Pro Phe Gly Glu val 
315 320 325 

ttt aat get act aaa ttc cct tct gtc tat gca tgg gag aga aaa aaa 1120 
Phe Asn Ala Thr Lys Phe Pro Ser Val Tyr Ala Trp Glu Arg Lys Lys 
330 335 340 

att tct aat tgt gtt get gat tac tct gtg etc tac aac tea aca ttt 1168 
lie ser Asn cys val Ala Asp Tyr Ser Val Leu Tyr Asn Ser Thr Phe 

350 355 360 

ttt tea acc ttt aag tgc tat ggc gtt tct gee act aag ttg aat gat 1216 
Phe ser Thr Phe Lys cys Tyr G?y Val ser Ala Thr Lyi Leu Asn Asp 
365 370 375 

ctt tgc ttc tec aat gtc tat gca gat tct ttt gta gtc aag gga gat 1264 
Leu cys Phe Ser Asn Val Tyr Ala Asp Ser Phe val val Lys Gly Asp 
380 385 390 

?, ta aga S? a ata g ?9 cca 99 a caa act 99* 9tt att get gat tat 1312 
Asp val Arg Gin He Ala Pro Gly Gin Thr Gly val lie Ala Asp Tyr 
395 400 405 

aat tat aaa ttg cca gat gat ttc atg ggt tgt gtc ctt get tgg aat 1360 
Asn Tyr Lys Leu Pro Asp Asp Phe Met Gly cys val Leu Ala Trp Asn 
410 415 420 

rhl Itl aa £ ? at S5* a 5 t tca a £* 99* aat tat aat tat aaa tat 1408 
Thr Arg Asn lie Asp Ala Thr ser Thr Gly Asn Tyr Asn Tyr Lys Tyr 

425 430 435 440 

agg tat ctt aga cat ggc aag ctt agg ccc ttt gag aga gac ata tct 3 4^ 
Arg Tyr Leu Arg His Gty Lys Leu Arg Pro Phe Glu Arg 2lp 111 ler 
445 450 455 

fin lt C t CC Cct gat ggc aaa cct *9 C acc cca cc * get ctt 1504 

Asn val pro Phe ser Pro Asp Gly Lys Pro Cys Thr Pro Pro Ala Leu 
460 465 470 

aat tgt tat tgg cca tta aat gat tat ggt ttt tac acc act act ggc 1552 
Asn Cys Tyr Trp Pro Leu Asn Asp Tyr Gly Phe Tyr Thr Thr Thr Gly 
475 . 480 _ 485 

?H l ac 5: aa cct tac aga 9** 9 ta 9ta ctt tct ttt gaa ctt tta 1600 
11 e SAX Tyr Gln Pro T * r Ar 9 va l val val Leu Ser Phe Glu Leu Leu 
490 495 500 

a 3 ?; ?n a £ cg ?S C a E g gtt tgt 9$a cca aaa tta tec act gac ctt att 1648 
Asn Ala Pro Ala Thr Val Cys cly Pro Lys Leu ser Thr Asp Leu lie 
505 510 515 520 

?«£ aaC 5? 9 J Qt gt ? aat ttt: aat tzt aat 99 a ctc ac t ggt act ggt 1696 
Lys Asn Gin Cys Val Asn Phe Asn Phe Asn Gly Leu Thr Gly Thr Gly 

Page 17 



S226CAS111-ST25 

525 530 535 

gtg tta act cct ten tea aag aga ttt caa cca ttt caa caa ttt ggc 1744 

Vat Leu Thr Pro Ser ser Lys Arg Phe Gin Pro Phe Gin Gin Phe Gly 

540 545 550 

cgt gat gtt tct gat ttc act gat tec gtt cga gat cct aaa aca tct 1792 

Arg Asp Val Ser Asp Phe Thr Asp Ser Val Arg Asp Pro Lys Thr ser 

555 560 565 

gaa ata tta gac att tea cct tgc tct ttt ggg ggt gta agt gta att 1840 

Glu lie Leu Asp lie Ser Pro cys Ser Phe Gly Giy val ser val lie 

570 575 580 

aca cct gga aca aat get tea tct gaa gtt get gtt eta tat caa gat 1888 

Thr Pro Gly Thr Asn Ala Ser ser Glu Val Ala Val Leu Tyr Gin Asp 
585 590 595 600 

gtt aac tgc act gat gtt tct aca gca att cat gca gat caa etc aca 1936 

Val Asn cys Thr Asp Val ser Thr Ala He His Ala Asp Gin Leu Thr 

605 610 615 

cca get tgg cgc ata tat tct act gga aac aat gta ttc cag act caa 1984 

Pro Ala Trp Arg lie Tyr ser Thr Gly Asn Asn Val Phe Gin Thr Gin 

620 625 630 



gca gqc tgt ctt ata gga get gag cat gtc gac act tct tat gag tgc 
Ala Gly cys Leu lie Gly Ala Glu His Val Asp Thr Ser Tyr Glu cys 
635 640 645 



2032 



gac att cct att gga get ggc att tgt get agt tac cat aca gtt tct 2080 

Asp lie Pro lie Gly Ala Gly lie cys Ala Ser Tyr His Thr Val ser 
650 655 660 

tta tta cgt agt act age caa aaa tct att gtg get tat act atg tct 2128 

Leu Leu Arg ser Thr Ser Gin Lys Ser lie Val Ala Tyr Thr Met ser 
665 ~ 670 675 680 

tta ggt get gat agt tea att get tac tct aat aac ace att get ata 2176 

Leu Giy Ala Asp Ser Ser lie Ala Tyr ser Asn Asn Thr lie Ala lie 
685 690 695 

cct act aac ttt tea att age att act aca gaa gta atg cct gtt tct 2224 

Pro Thr Asn Phe ser lie Ser lie Thr Thr Glu val Met Pro val ser 

700 705 710 



atg get aaa acc tec gta gat tgt aat atg tac ate tgc gga gat tct 2272 
Met Ala Lys Thr Ser Val Asp cys Asn Met Tyr lie Cys Gly Asp Ser 
715 720 725 



act gaa tgt get aat ttg ctt etc caa tat ggt age ttt tgc aca caa 2320 
Thr Glu Cys Ala Asn Leu Leu Leu Gin Tyr Gly Ser Phe Cys Thr Gin 
730 735 740 

eta aat cgt gca etc tea ggt att get get gaa cag gat cgc aac aca 2368 
Leu Asn Arg Ala Leu Ser Gly lie Ala Ala Glu Gin Asp Arg Asn Thr 
745 750 ' 755 760 

cgt gaa gtg ttc get caa gtc aaa caa atg tac aaa acc cca act ttg 2416 
Arg Glu Val Phe Ala Gin Val Lys Gin Met Tyr Lys Thr Pro Thr Leu 
765 770 775 

aaa tat ttt ggt ggt ttt aat ttt tea caa ata tta cct gac cct eta 2464 
Lys Tyr Phe Gly Gly Phe Asn Phe ser Gin lie Leu Pro Asp Pro Leu 
780 785 790 

aag cca act aag agg tct ttt att gag gac ttg etc ttt aat aag gtg 2512 
Lys Pro Thr Lys Arg Ser phe lie Glu Asp Leu Leu Phe Asn Lys VaT 
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800 805 



aca etc get gat get ggc ttc atg aag caa tat ggc gaa tgc eta ggt 
Thr Leu Ala Asp Ala Gly Phe Met Lys Gin Tyr Gly Glu cys Leu Gly 

810 • 815 820 

gat att aat get aga gat etc att tgt gcg cag aag ttc aat gga ctt 

Asp lie Asn Ala Arg Asp Leu lie Cys Ala Gin Lys Phe Asn Gly Leu 

825 830 835 . 840 

aca gtg ttg cca cct ctg etc act gat gat atg att get gec tac act 

Thr val Leu Pro Pro Leu Leu Thr Asp Asp Met lie Ala Ala Tyr Thr 

845 850 855 

get get eta gtt agt ggt act gec act get gga tgg aca ttt ggt get 

Ala Ala Leu val ser Gly Thr Ala Thr Ala Gly Trp Thr Phe Gly Ala 

860 865 870 

ggc get get ctt caa ata cct ttt get atg caa atg gca tat agg ttc 

Gly Ala Ala Leu Gin lie Pro Phe Ala Met Gin Met Ala Tyr Arg Phe 



875 



880 



885 



aat ggc att gga gtt ace caa aat gtt etc tat gag aac caa aaa caa 
Asn Gly lie Gly val Thr Gin Asn val Leu Tyr Glu Asn Gin Lys Gin 
890 895 900 

ate gec aac caa ttt aac aag gcg att agt caa att caa gaa tea ctt 
lie Ala Asn Gin Phe Asn Lys Ala lie Ser Gin lie Gin Glu ser Leu 
905 910 915 920 

aca aca aca tea act gca ttg ggc aag ctg caa gac gtt gtt aac cag 
Thr Thr Thr ser Thr Ala Leu Gly Lys Leu Gin Asp val val Asn Gin 
925 930 935 

aat get caa gca tta aac aca ctt gtt aaa caa ctt age tct aat ttt 
Asn Ala Gin Ala Leu Asn Thr Leu val Lys Gin Leu ser ser Asn Phe 
940 945 950 

ggt gca att tea agt gtg eta aat gat ate ctt teg cga ctt gat aaa 
Gly Ala lie ser ser val Leu Asn Asp lie Leu Ser Arg Leu Asp Lys 



955 



960 



Arg 
965 



gtc gag gcg gag gta caa att gac agg tta att aca ggc aga ctt caa 
val Glu Ala Glu val Gin lie Asp Arg Leu lie Thr Gly Arg Leu Gin 
970 975 980 

age ctt caa acc tat gta aca caa caa eta ate agg get get gaa ate 
ser Leu Gin Thr Tyr Val Thr Gin Gin Leu lie Arg Ala Ala Glu lie 
985 990 995 1000 

agg get tct get aat ctt get get act aaa atg tct gag tgt gtt 
Arg Ala Ser Ala Asn Leu Ala Ala Thr Lys Met Ser Glu cys Val 
1005 1010 1015 

ctt gga caa tea aaa aga gtt gac ttt tgt gga aag ggc tac cac 
Leu Gly Gin Ser Lys Arg Val Asp Phe Cys Gly Lys Gly Tyr His 



1020 



1025 



1030 



ctt atg tec ttc cca caa gca gee ccg cat ggt gtt gtc ttc eta 
Leu Met Ser Phe Pro Gin Ala Ala Pro His Gly val val Phe Leu 



1035 



1040 



1045 



cat gtc acg tat gtg cca tec cag gag agg aac ttc acc aca gcg 
His Val Thr Tyr Val Pro Ser Gin Glu Arg Asn Phe Thr Thr Ala 



1050 



Arg 
1055 



1060 



cca gca att tgt cat gaa ggc aaa gca tac ttc cct cgt gaa ggt 
Pro Ala lie Cys His Glu Gly Lys Ala Tyr Phe Pro Arg Glu Gly 



2560 

2608 

2656 

2704 

2752 

2800 

2848 

2896 

2944 

2992 

3040 

3088 

3133 

3178 

3223 

3268 

3313 
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1065 1070 1075 

gtt ttt gtg ttt aat ggc act tct tgg ttt att aca cag agg aac 3358 
val Phe Val Phe Asn Gly Thr Ser Trp Phe He Thr Gin Arg Asn 
1080 1085 1090 

ttc ttt tct cca caa ata att act aca gac aat aca ttt gtc tea 3403 
Phe Phe ser Pro Gin lie lie Thr Thr Asp Asn Thr Phe Val Ser 
1095 1100 1105 

gga aat tgt gat gtc gtt att ggc ate att aac aac aca gtt tat 3448 
Gly Asn cys Asp val Val lie Gly He lie Asn Asn Thr Val Tyr 
1110 1115 1120 

gat cct ctg caa cct gag ctt gac tea ttc aaa gaa gag ctg gac 3493 
Asp Pro Leu Gin Pro Glu Leu Asp Ser Phe Lys Glu Glu Leu Asp 
1125 1130 1135 

aag tac ttc aaa aat cat aca tea cca gat gtt gat ctt ggc gac 3538 
Lys Tyr Phe Lys Asn His Thr Ser Pro Asp Val Asp Leu Gly Asp 
1140 1145 1150 

att tea ggc att aac get tct gtc gtc aac att caa aaa gaa att 3583 
lie ser Gly lie Asn Ala ser val Val Asn He Gin Lys Glu lie 
1155 1160 1165 

gac cgc etc aat gag gtc get aaa aat tta aat gaa tea etc att 3628 
Asp Arg Leu Asn Glu val Ala Lys Asn Leu Asn Glu Ser Leu lie 
1170 1175 1180 

gac ctt caa gaa ttg gga aaa tat gag caa tat att aaa tgg cct 3673 
Asp Leu Gin Glu Leu Gly Lys Tyr Glu Gin Tyr lie Lys Trp Pro 
1185 1190 1195 

tgg tat gtt tgg etc ggc ttc att get gga eta att gee ate gtc 3718 
Trp Tyr Val Trp Leu Gly Phe lie Ala Gly Leu lie Ala lie Val 
1200 1205 1210 

atg gtt aca ate ttg ctt tgt tgc atg act agt tgt tgc agt tgc 3763 
Met val Thr lie Leu Leu cys Cys Met Thr ser cys Cys Ser Cys 
1215 1220 1225 

etc aag ggt gca tgc tct tgt ggt tct tgc tgc aag ttt gat gag 3808 
Leu Lys Gly Ala cys ser cys Gly Ser Cys cys Lys Phe Asp Glu 
1230 1235 1240 

gat gac tct gag cca gtt etc aag ggt gtc aaa tta cat tac aca 3853 
Asp Asp Ser Glu pro val Leu Lys Gly val Lys Leu His Tyr Thr 
1245 1250 1255 

taaacgaact tatggatttg tttatgagat tttttactct tggatcaatt actgcacagc 3913 

cagtaaaaat tgacaatget tctcctgcaa gt 3945 

<210> 3<211> 1255<212> PRT<213> CORONAVIRUS<400> 3 

Met Phe lie Phe Leu Leu Phe Leu Thr Leu Thr Ser Gly Ser Asp Leu 
15 10 15 

Asp Arg cys Thr Thr Phe Asp Asp Val Gin Ala Pro Asn Tyr Thr Gin 
H 20 25 30 

His Thr ser Ser Met Arg Gly val Tyr Tyr Pro Asp Glu lie Phe Arg 
35 40 45 
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ser Asp Thr Leu Tyr Leu Thr Gin Asp Leu Phe Leu Pro Phe Tyr Ser 
50 55 60 

Asn Val Thr Gly Phe His Thr He Asn His Thr Phe Gly Asn Pro val 
65 70 75 80 

lie Pro Phe Lys Asp Gly He Tyr Phe Ala Ala Thr Glu Lys ser Asn 
85 90 95 

Val val Arg Gly Trp Val Phe Gly ser Thr Met Asn Asn Lys ser Gin 
100 105 110 

ser val lie lie lie Asn Asn Ser Thr Asn Val val lie Arg Ala cys 
115 120 125 

Asn Phe Glu Leu cys Asp Asn Pro Phe Phe Ala val Ser Lys pro Met 
130 135 140 

Gly Thr Gin Thr His Thr Met lie Phe Asp Asn Ala Phe Asn cys Thr 
145 150 155 160 

Phe Glu Tyr lie ser Asp Ala Phe ser Leu Asp val ser Glu Lys ser 
165 170 175 

Gly Asn Phe Lys His Leu Arg Glu Phe val Phe Lys Asn Lys Asp Gly 
180 185 190 

Phe Leu Tyr val Tyr Lys Gly Tyr Gin Pro lie Asp Val Val Arg Asp 
195 200 205 

Leu Pro ser Gly Phe Asn Thr Leu Lys Pro lie Phe Lys Leu Pro Leu 
210 215 220 

Gly lie Asn He Thr Asn Phe Arg Ala lie Leu Thr Ala Phe Ser Pro 
225 230 235 240 

Ala Gin Asp lie Trp Gly Thr ser Ala Ala Ala Tyr Phe Val Gly Tyr 
245 250 255 

Leu Lys Pro Thr Thr phe Met Leu Lys Tyr Asp Glu Asn Gly Thr lie 
260 265 270 

Thr Asp Ala val Asp Cys ser Gin Asn Pro Leu Ala Glu Leu Lys cys 
275 280 285 

ser val Lys ser phe Glu lie Asp Lys Gly lie Tyr Gin Thr ser Asn 
290 295 300 

Phe Arg val val Pro Ser Gly Asp val val Arg Phe Pro Asn lie Thr 
305 310 315 320 
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Asn Leu Cys Pro Phe Gly Glu Val Phe Asn Ala Thr Lys Phe Pro Ser 
325 330 335 

val Tyr Ala Trp Glu Arg Lys Lys lie Ser Asn Cys val Ala Asp Tyr 
340 345 350 

Ser val Leu Tyr Asn Ser Thr Phe Phe Ser Thr Phe Lys cys Tyr Gly 
355 360 365 

val ser Ala Thr Lys Leu Asn Asp Leu cys Phe Ser Asn val Tyr Ala 
370 375 380 

Asp ser Phe val val Lys Gly Asp Asp Val Arg Gin lie Ala Pro Gly 
385 390 395 400 

Gin Thr Gly Val lie Ala Asp Tyr Asn Tyr Lys Leu Pro Asp Asp Phe 
405 410 415 

Met Gly cys val Leu Ala Trp Asn Thr Arg Asn lie Asp Ala Thr Ser 
420 425 430 

Thr Gly Asn Tyr Asn Tyr Lys Tyr Arg Tyr Leu Arg His Gly Lys Leu 
435 440 445 

Arq Pro Phe Glu Arg Asp lie Ser Asn Val Pro Phe Ser Pro Asp Gly 
450 455 460 

Lys Pro cys Thr Pro Pro Ala Leu Asn Cys Tyr Trp Pro Leu Asn Asp 
465 470 475 480 

Tyr Gly Phe Tyr Thr Thr Thr Gly lie Gly Tyr Gin Pro Tyr Arg Val 
y 485 490 495 

Val val Leu ser Phe Glu Leu Leu Asn Ala Pro Ala Thr val cys Gly 
500 505 510 

pro Lys Leu Ser Thr Asp Leu lie Lys Asn Gin cys val Asn Phe Asn 
515 520 525 

Phe Asn Gly Leu Thr Gly Thr Gly Val Leu Thr Pro Ser Ser Lys Arg 
530 535 540 

Phe Gin Pro Phe Gin Gin Phe Gly Arg Asp Val Ser Asp Phe Thr Asp 
545 550 555 560 

ser val Arg Asp Pro Lys Thr Ser Glu lie Leu Asp lie ser Pro Cys 

ser Phe Gly Gly Val ser val lie Thr Pro Gly Thr Asn Ala Ser Ser 
580 585 590 
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Glu Val Ala val Leu Tyr Gin Asp val Asn cys Thr Asp Val ser Thr 
595 600 605 

Ala His Ala Asp Gln Leu Tnr Pro Ala T rp Arg He Tyr Ser Thr 
61 0 615 620 

Gly Asn Asn val Phe Gin Thr Gin Ala Gly cys Leu He Gly Ala Glu 
625 630 635 640 

His Val Asp Thr ser Tyr Glu Cys Asp lie Pro lie Gly Ala Gly He 
645 650 655 

Cys Ala Ser Tyr His Thr Val Ser Leu Leu Arg Ser Thr Ser Gin Lys 
660 665 670 

Ser lie Val Ala Tyr Thr Met Ser Leu Gly Ala Asp ser Ser lie Ala 
675 680 685 

Tyr Ser Asn Asn Thr lie Ala lie Pro Thr Asn Phe ser lie Ser He 
b90 695 700 

Thr Thr Glu val Met Pro Val ser Met Ala Lys Thr ser Val Asp Cys 
705 710 715 720 

Asn Met Tyr lie Cys Gly Asp ser Thr Glu Cys Ala Asn Leu Leu Leu 
725 730 735 

Gin Tyr Gly ser Phe cys Thr Gin Leu Asn Arg Ala Leu Ser Gly lie 
740 745 750 

Ala Ala Glu Gin Asp Arg Asn Thr Arg Glu Val Phe Ala Gin Val Lys 

'55 760 765 

Gin Met Tyr Lys Thr Pro Thr Leu Lys Tyr Phe Gly Gly Phe Asn Phe 

775 780 

ser Gin He Leu Pro Asp Pro Leu Lys Pro Thr Lys Arg ser Phe lie 

790 795 " 800 

Glu Asp Leu Leu Phe Asn Lys val Thr Leu Ala Asp Ala Gly Phe Met 
805 810 815 

Lys Gin Tyr Gly Glu cys Leu Gly Asp He Asn Ala Arg Asp Leu He 
820 825 830 

Cys Ala Gin Lys Phe Asn Gly Leu Thr Val Leu Pro Pro Leu Leu Thr 
o55 840 845 

Asp Asp Met lie Ala Ala Tyr Thr Ala Ala Leu Val ser Gly Thr Ala 
° 3KJ 855 860 
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Thr Ala Gly Trp Thr Phe Gly Ala Gly Ala Ala Leu Gin lie Pro Phe 
865 870 87 5 

Ala Met Gin Met Ala Tyr Arg Phe Asn Gly He Gly val Thr Gin Asn 
885 890 oy:> 

val Leu Tyr Glu Asn Gin Lys Gin He Ala Asn Gin Phe Asn Lys Ala 
g00 905 910 

lie ser Gin He Gin Glu Ser Leu Thr Thr Thr Ser Thr Ala Leu Gly 
gi5 920 925 

Lys Leu Gin Asp val val Asn Gin Asn Ala Gin Ala Leu Asn Thr Leu 
g30 935 940 

Val Lys Gin Leu Ser Ser Asn Phe Gly Ala lie Ser Ser val Leu Asn 
945 ' g50 955 y°u 

Asp lie Leu ser Arg Leu Asp Lys Val Glu Ala Glu val Gin lie Asp 
K 965 970 9'5 

Arg Leu He Thr Gly Arg Leu Gin Ser Leu Gin Thr Tyr Val Thr Gin 

980 985 yy° 

Gin Leu lie Arg Ala Ala Glu lie Arg Ala ser Ala Asn Leu Ala Al 
995 " 1000 1005 

Thr Lys Met ser Glu cys val Leu Gly Gin ser Lys Arg Val Asp 
1010 1015 1020 

Phe Cys Gly Lys Gly Tyr His Leu Met ser Phe Pro Gin Ala Ala 
1025 1030 1035 

pro His Gly val val Phe Leu His val Thr Tyr Val Pro Ser Gin 
1040 1045 J-ObO 

Glu Arg Asn Phe Thr Thr Ala Pro Ala lie cys His Glu Gly Lys 
1055 1060 1065 

Ala Tyr Phe Pro Arg Glu Gly Val Phe val Phe Asn Gly Thr ser 
1070 1075 1080 

Trp Phe lie Thr Gin Arg Asn Phe Phe Ser Pro Gin He He Thr 
1085 1090 1095 

Thr Asp Asn Thr Phe val ser Gly Asn Cys Asp Val Val lie Gly 
1100 1105 111° 

lie He Asn Asn Thr Val Tyr Asp Pro Leu Gin Pro Glu Leu Asp 
1115 1120 1125 

page 24 




S226CAS111.ST25 

Ser Phe Lys Glu Glu Leu Asp Lys Tyr Phe Lys Asn His Thr Ser 
1130 1135 1140 

Pro Asp Val Asp Leu Gly Asp lie Ser Gly lie Asn Ala Ser Val 
1145 1150 1155 

val Asn He Gin Lys Glu lie Asp Arg Leu Asn Glu val Ala Lys 
1160 1165 1170 

Asn Leu Asn Glu ser Leu lie Asp Leu Gin Glu Leu Gly Lys Tyr 
1175 1180 1185 

Glu Gin Tyr lie Lys Trp Pro Trp Tyr Val Trp Leu Gly Phe lie 
1190 1195 1200 

Ala Gly Leu lie Ala lie Val Met Val Thr lie Leu Leu Cys cys 
1205 1210 1215 

Met Thr Ser cys Cys Ser Cys Leu Lys Gly Ala cys Ser Cys Gly 
1220 1225 1230 

Ser cys Cys Lys Phe Asp Glu Asp Asp Ser Glu Pro val Leu Lys 
1235 1240 1245 

Gly Val Lys Leu His Tyr Thr 
1250 1255 



<210> 4<211> 3943<212> DNA<213> CORONAVIRUS<400> 4 
ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg gtttcaagtg 


60 


atattcttgt 


taacaactaa 


acgaacatgt 


ttattttctt 


attatttctt 


actctcacta 


120 


gtggtagtga 


ccttgaccgg 


tgcaccactt 


ttgatgatgt 


tcaagctcct 


aattacactc 


180 


aacatacttc 


atctatgagg 


ggggtttact 


atcctgatga 


aatttttaga 


tcagacactc 


240 


tttatttaac 


tcaggattta 


tttcttccat 


tttattctaa 


tgttacaggg 


tttcatacta 


300 


ttaatcatac 


gtttggcaac 


cctgtcatac 


cttttaagga 


tggtatttat 


tttgctgcca 


360 


cagagaaatc 


aaatgttgtc 


cgtggttggg 


tttttggttc 


taccatgaac 


aacaagtcac 


420 


agtcggtgat 


tattattaac 


aattctacta 


atgttgttat 


acgagcatgt 


aactttgaat 


480 


tgtgtgacaa 


ccctttcttt 


gctgtttcta 


aacccatggg 


tacacagaca 


catactatga 


540 


tattcgataa 


tgcatttaat 


tgcactttcg 


agtacatatc 


tgatgccttt tcgcttgatg 


600 


tttcagaaaa 


gtcaggtaat 


tttaaacact 


tacgagagtt 


tgtgtttaaa 


aataaagatg 


660 


ggtttctcta 


tgtttataag 


ggctatcaac 


ctatagatgt 


agttcgtgat 


ctaccttctg 


720 


gttttaacac 


tttgaaacct 


atttttaagt 


tgcctcttgg 


tattaacatt 


acaaatttta 


780 


gagccattct 


tacagccttt 


tcacctgctc 


aagacatttg 


gggcacgtca 


gctgcagcct 


840 


attttgttgg 


ctatttaaag 


ccaactacat 


ttatgctcaa 
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tcacagatgc tgttgattgt tctcaaaatc cacttgctga actcaaatgc tctgttaaga 960 

gctttgagat tgacaaagga atttaccaga cctctaattt cagggttgtt ccctcaggag 1020 

atgttgtgag attccctaat attacaaact tgtgtccttt tggagaggtt tttaatgcta 1080 

ctaaattccc ttctgtctat gcatgggaga gaaaaaaaat ttctaattgt gttgctgatt 1140 

actctgtgct ctacaactca acattttttt caacctttaa gtgctatggc gtttctgcca 1200 

ctaagttgaa tgatctttgc ttctccaatg tctatgcaga ttcttttgta gtcaagggag 1260 

atgatgtaag acaaatagcg ccaggacaaa ctggtgttat tgctgattat aattataaat 1320 

tgccagatga tttcatgggt tgtgtccttg cttggaatac taggaacatt gatgctactt 1380 

caactggtaa ttataattat aaatataggt atcttagaca tggcaagctt aggccctttg 1440 

agagagacat atctaatgtg cctttctccc ctgatggcaa accttgcacc ccacctgctc 1500 

ttaattgtta ttggccatta aatgattatg gtttttacac cactactggc attggctacc 1560 

aaccttacag agttgtagta ctttcttttg aacttttaaa tgcaccggcc acggtttgtg 1620 

gaccaaaatt atccactgac cttattaaga accagtgtgt caattttaat tttaatggac 1680 

tcactggtac tggtgtgtta actccttctt caaagagatt tcaaccattt caacaatttg 1740 

gccgtgatgt ctctgatttc actgattccg ttcgagatcc taaaacatct gaaatattag 1800 

acatttcacc ttgctctttt gggggtgtaa gtgtaattac acctggaaca aatgcttcat 1860 

ctgaagttgc tgttctatat caagatgtta actgcactga tgtttctaca gcaatccatg 1920 

cagatcaact cacaccagct tggcgcatat attctactgg aaacaatgta ttccagactc 1980 

aagcaggctg tcttatagga gctgagcatg tcgacacttc ttatgagtgc gacattccta 2040 

ttggagctgg catttgtgct agttaccata cagtttcttt attacgtagt actagccaaa 2100 

aatctattgt ggcttatact atgtctttag gtgctgatag ttcaattgct tactctaata 2160 

acaccattgc tatacctact aacttttcaa ttagcattac tacagaagta atgcctgttt 2220 

ctatggctaa aacctccgta gattgtaata tgtacatctg cggagattct actgaatgtg 2280 

ctaatttgct tctccaatat ggtagctttt gcacacaact aaatcgtgca ctctcaggta 2340 

ttgctgctga acaggatcgc aacacacgtg aagtgttcgc tcaagtcaaa caaatgtaca 2400 

aaaccccaac tttgaaatat tttggtggtt ttaatttttc acaaatatta cctgaccctc 2460 

taaagccaac taagaggtct tttattgagg acttgctctt taataaggtg acactcgctg 2520 

atgctggctt catgaagcaa tatggcgaat gcctaggtga tattaatgct agagatctca 2580 

tttgtgcgca gaagttcaat gggcttacag tgttgccacc tctgctcact gatgatatga 2640 

ttgctgccta cactgctgct ctagttagtg gtactgccac tgctggatgg acatttggtg 2700 

ctggcgctgc tcttcaaata ccttttgcta tgcaaatggc atataggttc aatggcattg 2760 

gagttaccca aaatgttctc tatgagaacc aaaaacaaat cgccaaccaa tttaacaagg 2820 

cgattagtca aattcaagaa tcacttacaa caacatcaac tgcattgggc aagctgcaag 2880 

acgttgttaa ccagaatgct caagcattaa acacacttgt taaacaactt agctctaatt 2940 
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ttggtgcaat ttcaagtgtg ctaaatgata tcctttcgcg acttgataaa gtcgaggcgg 3000 



aggtacaaat tgacaggcta attacaggca 


gacttcaaag 


ccttcaaacc tatgtaacac 


3060 


aacaactaat 


cagggctgct 


gaaatcaggg 


cttctgctaa 


tcttgctgct 


actaaaatgt 


3120 


ctgagtgtgt 


tcttggacaa 


tcaaaaagag 


ttgacttttg 


tggaaagggc 


taccacctta 


3180 


tgtccttccc 


acaagcagcc 


ccgcatggtg 


ttgtcttcct 


acatgtcacg 


tatgtgccat 


3240 


cccaggagag 


gaacttcacc 


acagcgccag 


caatttgtca 


tgaaggcaaa 


gcatacttcc 


3300 


ctcgtgaagg 


tgtttttgtg 


tttaatggca 


cttcttggtt 


tattacacag 


aggaacttct 


3360 


tttctccaca 


aataattact 


acagacaata 


catttgtctc 


aggaaattgt 


gatgtcgtta 


3420 


ttggcatcat 


taacaacaca gtttatgatc 


ctctgcaacc 


tgagcttgac 


tcattcaaag 


3480 


aagagctgga caagtacttc 


aaaaatcata 


catcaccaga 


tgttgatctt 


ggcgacattt 


3540 


caggcattaa cgcttctgtc gtcaacattc 


aaaaagaaat 


tgaccgcctc 


aatgaggtcg 


3600 


ctaaaaattt aaatgaatca ctcattgacc 


ttcaagaatt 


gggaaaatat gagcaatata 


3660 


ttaaatggcc ttggtatgtt tggctcggct: 


tcattgctgg 


actaattgcc atcgtcatgg 


3720 


ttacaatctt gctttgttgc atgactagtt 


gttgcagttg 


cctcaagggt gcatgctctt 


3780 


gtggttcttg ctgcaagttt gatgaggatg 


actctgagcc 


agttctcaag 


ggtgtcaaat 


3840 


tacattacac ataaacgaac ttatggattt 


gtttatgaga 


ttttttactc ttggatcaat 


3900 


tactgcacag ccagtaaaaa ttgacaatgc 


ttctcctgca 


agt 




3943 


<210> 5<211> 2049<212> DNA<213> CORONAVIRUS<400> ! 
ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg 


gtttcaagtg 


60 


atattcttgt 


taacaactaa 


acgaacatgt 


ttattttctt 


attatttctt 


actctcacta 


120 


gtggtagtga 


ccttgaccgg 


tgcaccactt 


ttgatgatgt 


tcaagctcct 


aattacactc 


180 


aacatacttc 


atctatgagg 


ggggtttact 


atcctgatga 


aatttttaga 


tcagacactc 


240 


tttatttaac 


tcaggattta 


tttcttccat 


tttattctaa 


tgttacaggg 


tttcatacta 


300 


ttaatcatac 


gtttggcaac 


cctgtcatac 


cttttaagga 


tggtatttat 


tttgctgcca 


360 


cagagaaatc 


aaatgttgtc 


cgtggttggg 


tttttggttc 


taccatgaac 


aacaagtcac 


420 


agtcggtgat 


tattattaac 


aattctacta 


atgttgttat 


acgagcatgt 


aactttgaat 


480 


tgtgtgacaa 


ccctttcttt 


gctgtttcta 


aacccatggg 


tacacagaca 


catactatga 


540 


tattcgataa 


tgcatttaat 


tgcactttcg 


agtacatatc 


tgatgccttt 


tcgcttgatg 


600 


tttcagaaaa 


gtcaggtaat 


tttaaacact 


tacgagagtt 


tgtgtttaaa 


aataaagatg 


660 


ggtttctcta 


tgtttataag 


ggctatcaac 


ctatagatgt 


agttcgtgat 


ctaccttctg 


720 


gttttaacac 


tttgaaacct 


atttttaagt 


tgcctcttgg 


tattaacatt 


acaaatttta 


780 


gagccattct 


tacagccttt 


tcacctgctc 


aagacatttg 


gggcacgtca 


gctgcagcct 


840 


attttgttgg 


ctatttaaag 


ccaactacat 


ttatgctcaa 


gtatgatgaa 


aatggtacaa 


900 


tcacagatgc 


tgttgattgt 


tctcaaaatc 


cacttgctga 


actcaaatgc 


tctgttaaga 


960 
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gctttgagat 


tgacaaagga 


atttaccaga 


S226CAS111.ST25 
cctctaattt cagggttgtt 


ccctcaggag 


1020 


atgttgtgag 


attccctaat 


attacaaact 


tgtgtccttt 


tggagaggtt 


tttaatgcta 


1080 


ctaaattccc 


ttctgtctat 


gcatgggaga 


gaaaaaaaat 


ttctaattgt 


gttgctgatt 


1140 


actctgtgct 


ctacaactca 


acattttttt 


caacctttaa 


gtgctatggc 


gtttctgcca 


1200 


ctaagttgaa 


tgatctttgc 


ttctccaatg 


tctatgcaga 


ttcttttgta 


gtcaagggag 


1260 


atgatgtaag 


acaaatagcg 


ccaggacaaa 


ctggtgttat 


tgctgattat 


aattataaat 


1320 


tgccagatga 


tttcatgggt 


tgtgtccttg 


cttggaatac 


taggaacatt 


gatgctactt 


1380 


caactggtaa 


ttataattat 


aaatataggt 


atcttagaca 


tggcaagctt 


aggccctttg 


1440 


agagagacat 


atctaatgtg 


cctttctccc 


ctgatggcaa 


accttgcacc 


ccacctgctc 


1500 


ttaattgtta 


ttggccatta 


aatgattatg 


gtttttacac 


cactactggc 


attggctacc 


1560 


aaccttacag 


agttgtagta 


ctttcttttg 


aacttttaaa 


tgcaccggcc 


acggtttgtg 


1620 


gaccaaaatt 


atccactgac 


cttattaaga 


accagtgtgt 


caattttaat 


tttaatggac 


1680 


tcactggtac 


tggtgtgtta 


actccrtctt 


caaagagatt 


tcaaccattt 


caacaatttg 


1740 


gccgtgatgt 


ctctgatttc 


actgattccg 


ttcgagatcc 


taaaacatct 


gaaatattag 


1800 


acatttcacc 


ttgctctttt 


gggggtgtaa 


gtgtaattac 


acctggaaca 


aatgcttcat 


1860 


v. Ly dcty «_ Ly L. 




\_ aciy a. uy uia 


actgcactga 


tgtttctaca 


acaatccata 


1920 


cagatcaact 


cacaccagct 


tggcgcatat 


attctactgg 


aaacaatgta 


ttccagactc 


1980 


aagcaggctg 


tcttatagga 


gctgagcatg 


tcgacacttc 


ttatgagtgc 


gacattccta 


2040 


ttggagctg 












2049 


<210> 6<211> 2027<212> DNA<213> CORONAVIRUS<400> 6 
catgcagatc aactcacacc agcttggcgc atatattcta ctggaaacaa tgtattccag 


60 


actcaagcag 


gctgtcttat 


aggagctgag 


catgtcgaca 


cttcttatga 


gtgcgacatt 


120 


cctattggag 


ctggcatttg 


tgctagttac 


catacagttt 


ctttattacg 


tagtactagc 


180 


caaaaatcta 


ttgtggctta 


tactatgtct 


ttaggtgctg 


atagttcaat 


tgcttactct 


240 


aataacacca 


ttgctatacc 


tactaacttt 


tcaattagca 


ttactacaga 


agtaatgcct 


300 


gtttctatgg 


ctaaaacctc 


cgtagattgt 


aatatgtaca 


tctgcggaga 


ttctactgaa 


360 


tgtgctaatt 


tgcttctcca 


atatggtagc 


ttttgcacac 


aactaaatcg 


tgcactctca 


420 


ggtattgctg 


ctgaacagga 


tcgcaacaca 


cgtgaagtgt 


tcgctcaagt 


caaacaaatg 


480 


tacaaaaccc 


caactttgaa 


atattttggt 


ggttttaatt 


tttcacaaat 


attacctgac 


540 


cctctaaagc 


caactaagag 


gtcttttatt 


gaggacttgc 


tctttaataa 


ggtgacactc 


600 


gctgatgctg 


gcttcatgaa 


gcaatatggc 


gaatgcctag 


gtgatattaa 


tgctagagat 


660 


ctcatttgtg 


cgcagaagtt 


caatgggctt 


acagtgttgc 


cacctctgct 


cactgatgat 


720 


atgattgctg 


cctacactgc 


tgctctagtt 


agtggtactg 


ccactgctgg 


atggacattt 


780 


ggtgctggcg 


ctgctcttca 


aatacctttt 


gctatgcaaa 


tggcatatag 


gttcaatggc 


840 
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attggagtta cccaaaatgt tctctatgag aaccaaaaac aaatcgccaa ccaatttaac 
aaggcgatta gtcaaattca agaatcactt acaacaacat caactgcatt gggcaagctg 
caagacgttg ttaaccagaa tgctcaagca ttaaacacac ttgttaaaca acttagctct 
aattttggtg caatttcaag tgtgctaaat gatatccttt cgcgacttga taaagtcgag 
gcggaggtac aaattgacag gttaattaca ggcagacttc aaagccttca aacctatgta 
acacaacaac taatcagggc tgctgaaatc agggcttctg ctaatcttgc tgctactaaa 
atgtctgagt gtgttcttgg acaatcaaaa agagttgact tttgtggaaa gggctaccac 
cttatgtcct tcccacaagc agccccgcat ggtgttgtct tcctacatgt cacgtatgtg 
ccatcccagg agaggaactt caccacagcg ccagcaattt gtcatgaagg caaagcatac 
ttccctcgtg aaggtgtttt tgtgtttaat ggcacttctt ggtttattac acagaggaac 
ttcttttctc cacaaataat tactacagac aatacatttg txtcaggaaa ttgtgatgtc 
gttattggcg tcattaacaa cacagtttat gatcctctgc aacctgagct tgactcattc 
aaagaagagc tggacaagta cttcaaaaat catacatcac cagatgttga tcttggcgac 
atttcaggca ttaacgcttc tgtcgtcaac attcaaaaag aaattgaccg cctcaatgag 
gtcgctaaaa atttaaatga atcactcatt gaccttcaag aattgggaaa atatgagcaa 
tatattaaat ggccttggta tgtttggctc ggcttcattg ctggactaat tgccatcgtc 
atggttacaa tcttgctttg ttgcatgact agttgttgca gttgcctcaa gggtgcatgc 
tcttgtggtt cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc 
aaattacatt acacataaac gaacttatgg atttgtttat gagatttttt actcttggat 
caattactgc acagccagta aaaattgaca atgcttctcc tgcaagt 

.-MfK 7^711^ 1096<212> DNA<213> CORONAVIRUS<400> 7 
tltSScttt? £gca?ga« ajttgttgca gttgcctcaa gggtgcatgc tcttgtggtt 

cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc aaattacatt 

acacataaac gaacttatgg atttgtttat gagatttttt actcttggat caattactgc 

acagccagta aaaattgaca atgcttctcc tgcaagtact gttcatgcta cagcaacgat 

accgctacaa gcctcactcc ctttcggatg gcttgttatt ggcgttgcat ttcttgctgt 

ttttcagagc gctaccaaaa taattgcgct caataaaaga tggcagctag ccctttataa 

gggcttccag ttcatttgca atttactgct gctatttgtt accatctatt cacatctttt 

gcttgtcgct gcaggtatgg aggcgcaatt tttgtacctc tatgccttga tatattttct 

acaatgcatc aacgcatgta gaattattat gagatgttgg ctttgttgga agtgcaaatc 

caagaaccca ttactttatg atgccaacta ctttgtttgc tggcacacac ataactatga 

ctactgtata ccatataaca gtgtcacaga tacaattgtc gttactgaag gtgacggcat 

ttcaacacca aaactcaaag aagactacca aattggtggt tattctgagg ataggcactc 

aggtgttaaa gactatgtcg ttgtacatgg ctatttcacc gaagtttact accagcttga 
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900 
960 

1020 

1080 

1140 

1200 

1260 

1320 

1380 

1440 

1500 

1560 

1620 

1680 

1740 

1800 

1860 

1920 

1980 

2027 

60 
120 
180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 



gtctacacaa attactacag 


S226CAS111. 
acactggtat tgaaaatgct 


ST25 

acattcttca 


tctttaacaa 


840 


gcttgttaaa gacccaccga 


atgtgcaaat 


acacacaatc gacggctctt 


caggagttgc 


900 


taatccagca atggatccaa tttatgatga gccgacgacg 


actactagcg 


tgcctttgta 


960 


agcacaagaa agtgagtacg 


aacttatgta ctcattcgtt 


tcggaagaaa 


caggtacgtt 


1020 


aatagttaat 


agcgtacttc 


tttttcttgc 


tttcgtggta ttcttgctag 


tcacactagc 


1080 


catccttact gcgctt 










1096 


<210> 8<211> 1135<212> DNA<213> CORONAVIRUS<400> 8 
attgccatcg tcatggttac aatcttgctt tgttgcatga ctagttgttg cagttgcctc 


60 


aagggtgcat 


gctcttgtgg 


ttcttgctgc 


aagtttgatg 


aggatgactc 


tgagccagtt 


120 


ctcaagggtg 


tcaaattaca 


ttacacataa 


acgaacttat 


ggatttgttt 


atgagatttt 


180 


ttactcttgg 


atcaattact 


gcacagccag 


taaaaattga 


caatgcttct 


cctgcaagta 


240 


ctgttcatgc 


tacagcaacg 


ataccgctac 


aagcctcact 


ccctttcgga 


tggcttgtta 


300 


ttggcgttgc 


atttcttgct 


gtttttcaga 


gcgctaccaa 


aataattgcg 


ctcaataaaa 


360 




«.y v_ v„ v_ v_ l. i_ a. i_ 


aa yyy^- «- l v-v_ 


<xy L iLct l_ L Ly 


v_dcL L L Lav. Ly 




420 


ttaccatcta 


ttcacatctt 


ttgcttgtcg 


ctgcaggtat 


ggaggcgcaa 


tttttgtacc 


480 


tctatgcctt 


gatatatttt 


ctacaatgca 


tcaacgcatg 


tagaattatt 


atgagatgtt 


540 


ggctttgttg 


gaagtgcaaa 


tccaagaacc 


cattacttta 


tgatgccaac 


tactttgttt 


600 


gctggcacac 


acataactat 


gactactgta 


taccatataa 


cagtgtcaca 


gatacaattg 


660 


tcgttactga 


aggtgacggc 


atttcaacac 


caaaactcaa 


agaagactac 


caaattggtg 


720 


gttattctga 


ggataggcac 


tcaggtgtta 


aagactatgt 


cgttgtacat 


ggctatttca 


780 


ccgaagttta 


ctaccagctt 


gagtctacac 


aaattactac 


agacactggt 


attgaaaatg 


840 


ctacattctt 


catctttaac 


aagcttgtta 


aagacccacc 


gaatgtgcaa 


atacacacaa 


900 


tcgacggctc 


ttcaggagtt 


gctaatccag 


caatggatcc 


aatttatgat 


gagccgacga 


960 


cgactactag 


cgtgcctttg 


taagcacaag 


aaagtgagta 


cgaacttatg 


tactcattcg 


1020 


tttcggaaga 


aacaggtacg 


ttaatagtta 


atagcgtact 


tctttttctt 


gctttcgtgg 


1080 


tattcttgct 


agtcacacta 


gccatcctta 


ctgcgcttcg 


attgtgtgcg 


tactg 


1135 



<210> 9<211> 1096<212> DNA<213> CORONAVIRUS<220><221> CD5<222> 
(137). .(958)<223> 

<400> 9 

tcttgctttg ttgcatgact agttgttgca gttgcctcaa gggtgcatgc tcttgtggtt 60 

cttgctgcaa gtttgatgag gatgactctg agccagttct caagggtgtc aaattacatt 120 

acacataaac gaactt atg gat ttg ttt atg aga ttt ttt act ctt gga tea 172 
Met Asp Leu Phe Met Arg Phe Phe Thr Leu Giy Ser 
1 5 10 

att act gca cag cca gta aaa att gac aat get tct cct gca agt act 220 
lie Thr Ala Gin Pro val Lys lie Asp Asn Ala Ser Pro Ala Ser Thr 
15 20 25 
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gtt cat get aca gca acg ata ccg eta caa gec tea etc cct ttc gga 268 

val His Ala Thr Ala Thr lie pro Leu Gin Ala Ser Leu Pro Phe Gly 
30 35 40 

tgg ctt gtt att ggc gtt gca ttt ctt get gtt ttt cag age get ace 316 

Trp Leu Val lie Gly Val Ala Phe Leu Ala Val Phe Gin ser Ala Thr 
45 50 55 60 

aaa ata att gcg etc aat aaa aga tgg cag eta gee ctt tat aag ggc 364 

Lys lie lie Ala Leu Asn Lys Arg Trp Gin Leu Ala Leu Tyr Lys Gly 
65 70 75 

ttc cag ttc att tgc aat tta ctg ctg eta ttt gtt acc ate tat tea 412 

Phe Gin Phe lie cys Asn Leu Leu Leu Leu Phe Val Thr lie Tyr ser 
80 85 90 

cat ctt ttg ctt gtc get gca ggt atg gag gcg caa ttt ttg tac etc 460 

His Leu Leu Leu Val Ala Ala Gly Met Glu Ala Gin Phe Leu Tyr Leu 

95 100 105 

tat gec ttg ata tat ttt eta caa tgc ate aac gca tgt aga att att 508 

Tyr Ala Leu lie Tyr Phe Leu Gin Cys He Asn Ala cys Arg He lie 
110 115 120 

atg aga tgt tgg ctt tgt tgg aag tgc aaa tec aag aac cca tta ctt 556 

Met Arg Cys Trp Leu Cys Trp Lys cys Lys Ser Lys Asn Pro Leu Leu 
125 130 135 140 

tat gat gee aac tac ttt gtt tgc tgg cac aca cat aac tat gac tac 604 

Tyr Asp Ala Asn Tyr Phe Val Cys Trp His Thr His Asn Tyr Asp Tyr 
145 150 155 

tgt ata cca tat aac agt gtc aca gat aca att gtc gtt act gaa ggt 652 

Cys lie Pro Tyr Asn Ser val Thr Asp Thr lie val Val Thr Glu Gly 
160 165 170 

gac gqc att tea aca cca aaa etc aaa gaa gac tac caa att ggt ggt 700 

Asp Gly lie Ser Thr Pro Lys Leu Lys Glu Asp Tyr Gin lie Gly Gly 

175 180 185 

tat tct gag gat agg cac tea ggt gtt aaa gac tat gtc gtt gta cat 748 

Tyr ser Glu Asp Arg His ser Gly val Lys Asp Tyr val val val His 
190 195 200 

ggc tat ttc acc gaa gtt tac tac cag ctt gag tct aca caa att act 796 

Gly Tyr Phe Thr Glu val Tyr Tyr Gin Leu Glu ser Thr Gin lie Thr 
205 210 215 220 

aca gac act ggt att gaa aat get aca ttc ttc ate ttt aac aag ctt 844 

Thr Asp Thr Gly lie Glu Asn Ala Thr Phe Phe lie Phe Asn Lys Leu 
225 230 235 

gtt aaa gac cca ccg aat gtg caa ata cac aca ate gac ggc tct tea 892 

Val Lys Asp Pro Pro Asn Val Gin lie His Thr lie Asp Gly ser ser 
240 245 250 

gga gtt get aat cca gca atg gat cca att tat gat gag ccg acg acg 940 

Gly val Ala Asn Pro Ala Met Asp Pro lie Tyr Asp Glu Pro Thr Thr 

255 260 265 

act act age gtg cct ttg taagcacaag aaagtgagta cgaacttatg 988 
Thr Thr Ser val Pro Leu 
270 

tactcattcg ttteggaaga aacaggtacg ttaatagtta atagegtact tctttttctt 1048 

gctttcgtgg tattcttget agtcacacta gccatcctta ctgegett 1096 
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<210> 10<211> 274<212> PRT<213> CORONAVIRUS<400> 10 

Met asp Leu Phe Met Arg Phe Phe Thr Leu Gly ser He Thr Ala Gin 
1 5 10 15 

pro val Lys He Asp Asn Ala Ser Pro Ala Ser Thr val His Ala Thr 
20 25 30 

Ala Thr lie Pro Leu Gin Ala Ser Leu Pro Phe Gly Trp Leu val lie 
35 40 45 

Gly val Ala Phe Leu Ala val Phe Gin ser Ala Thr Lys lie lie Ala 
50 55 60 

Leu Asn Lys Arg Trp Gin Leu Ala Leu Tyr Lys Gly Phe Gin Phe lie 
65 70 75 *v 

cys Asn Leu Leu Leu Leu Phe val Thr lie Tyr Ser His Leu Leu Leu 
85 90 95 

val Ala Ala Gly Met Glu Ala Gin Phe Leu Tyr Leu Tyr Ala Leu He 
100 105 110 

Tyr Phe Leu Gin Cys lie Asn Ala cys Arg lie He Met Arg Cys Trp 
115 120 125 

Leu Cys Trp Lys Cys Lys Ser Lys Asn Pro Leu Leu Tyr Asp Ala Asn 
130 ' 135 140 

Tyr Phe val Cys Trp His Thr His Asn Tyr Asp Tyr cys lie Pro Tyr 
145 150 155 160 

Asn ser Val Thr Asp Thr lie Val val Thr Glu Gly Asp Gly lie ser 
165 170 175 

Thr Pro Lys Leu Lys Glu Asp Tyr Gin lie Gly Gly Tyr Ser Glu Asp 
180 185 190 

Arg His ser Gly val Lys Asp Tyr val val Val His Gly Tyr Phe Thr 
195 200 205 

Glu Val Tyr Tyr Gin Leu Glu Ser Thr Gin lie Thr Thr Asp Thr Gly 
210 215 220 

lie Glu Asn Ala Thr Phe Phe He Phe Asn Lys Leu val Lys Asp Pro 
225 230 235 240 

pro Asn val Gin lie His Thr lie Asp Gly ser ser Gly val Ala Asn 
245 250 255 
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pro Ala Met Asp Pro lie tyr Asp Glu Pro Thr Thr Thr Thr Ser Val 
260 265 270 



Pro Leu 



<210> 11<211> 1096<212> DNA<213> CORONAVIRUS<2 20x22 1> CDS<222> 
(558)..C1019)<223> 



<400> 11 
tcttgctttg 


ttgcatgact 


agttgttgca 


gttgcctcaa 


gggtgcatgc 


tcttgtggtt 


60 


cttgctgcaa 


gtttgatgag 


gatgactctg 


agecagttet 


caagggtgtc 


aaattacatt 


120 


acacataaac 


gaacttatgg 


atttgtttat 


gagatttttt 


actcttggat 


caattactgc 


180 


acagccagta 


aaaattgaca 


atgcttctcc 


tgcaagtact 


gttcatgeta 


cagcaacgat 


240 


accgctacaa 


gcctcactcc 


ettteggatg 


gcttgttatt 


ggcgttgcat 


ttcttgctgt 


300 


ttttcagagc 


gctaccaaaa 


taattgeget 


caataaaaga 


tggcagctag 


ccctttataa 


360 


gggcttccag 


ttcatttgca 


atttactget 


gctatttgtt 


accatctatt 


cacatctttt 


420 


gcttgtcgct 


gcaggtatgg 


aggegcaatt 


tttgtacctc 


tatgecttga 


tatattttct 


480 


acaatgcatc 


aacgcatgta 


gaattattat 


gagatgttgg 


ctttgttgga 


agtgcaaatc 


540 


caagaaccca 


ttacttt atg atg cca act act ttg ttt get gqc 
Met Met Pro Thr Thr Leu Phe Ala Gly 
1 5 


aca cac 
Thr His 
10 


590 



ata act atg act act gta tac cat ata aca gtq tea cag ata caa ttg 638 
lie Thr Met Thr Thr val Tyr His lie Thr VaT ser Gin lie Gin Leu 
15 20 25 

teg tta ctg aag gtq acg gca ttt caa cac caa aac tea aag aag act 686 
Ser Leu Leu Lys Val Thr Ala Phe Gin His Gin Asn Ser Lys Lys Thr 
30 35 40 

acc aaa ttg gtq gtt att ctg agg ata gqc act cag gtq tta aag act 734 
Thr Lys Leu VaT val lie Leu Arg lie Gly Thr Gin Val Leu Lys Thr 
45 50 55 

atg teg ttg tac atg get att tea ccg aag ttt act acc age ttg agt 782 
Met Ser Leu Tyr Met Ala He ser Pro Lys Phe Thr Thr Ser Leu Ser 
60 65 70 75 

eta cac aaa tta eta cag aca ctg gta ttg aaa atg eta cat tct tea 830 
Leu His Lys Leu Leu Gin Thr Leu val Leu Lys Met Leu His Ser Ser 
80 85 90 

tct tta aca age ttg tta aag acc cac cga atg tgc aaa tac aca caa 878 
ser Leu Thr Ser Leu Leu Lys Thr His Arg Met cys Lys Tyr Thr Gin 
95 100 105 

teg acg get ctt cag gag ttg eta ate cag caa tgg ate caa ttt atg 926 
Ser Thr Ala Leu Gin Glu Leu Leu lie Gin Gin Trp lie Gin Phe Met 
110 115 120 

atg age cga cga cga eta eta gcg tgc ctt tgt aag cac aag aaa gtg 974 
Met ser Arg Arg Arg Leu Leu Ala Cys Leu Cys Lys His Lys Lys Val 
125 130 135 

agt acg aac tta tgt act cat teg ttt egg aag aaa cag gta cgt 1019 
Ser Thr Asn Leu Cys Thr His ser Phe Arg Lys Lys Gin Val Arg 
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140 145 150 

taatagttaa tagcgtactt ctttttcttg ctttcgtggt attcttgcta gtcacactag 1079 
ccatccttac tgcgctt 1096 

<210> 12<211> 154<212> PRT<213> CORONAVIRUS<400> 12 

Met Met Pro Thr Thr Leu Phe Ala Gly Thr His lie Thr Met Thr Thr 
15 10 15 

Val Tyr His lie Thr Val ser Gin lie Gin Leu ser Leu Leu Lys Val 
20 25 30 

Thr Ala Phe Gin His Gin Asn Ser Lys Lys Thr Thr Lys Leu Val Val 
35 40 45 

lie Leu Arg lie Gly Thr Gin Val Leu Lys Thr Met Ser Leu Tyr Met 
50 55 60 

Ala lie ser Pro Lys Phe Thr Thr Ser Leu Ser Leu His Lys Leu Leu 
65 70 75 80 

Gin Thr Leu val Leu Lys Met Leu His Ser ser Ser Leu Thr ser Leu 
85 90 95 

Leu Lys Thr His Arg Met Cys Lys Tyr Thr Gin Ser Thr Ala Leu Gin 
100 105 110 

Glu Leu Leu lie Gin Gin Trp lie Gin Phe Met Met ser Arg Arg Arg 
115 120 125 

Leu Leu Ala Cys Leu Cys Lys His Lys Lys Val ser Thr Asn Leu Cys 
130 135 140 

Thr His ser Phe Arg Lys Lys Gin Val Arg 
145 150 

<210> 13<211> 332<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
(36). .(263)<223> 

<400> 13 

tgcctttgta agcacaagaa agtgagtacg aactt atg tac tea ttc gtt teg 53 

Met Tyr Ser Phe Val Ser 
1 5 

gaa gaa aca ggt acg tta ata gtt aat age gta ctt ett ttt ctt get 101 
Glu Glu Thr Gly Thr Leu lie Val Asn Ser Val Leu Leu Phe Leu Ala 
10 15 20 

ttc gtg gta ttc ttg eta gtc aca eta gec ate ctt act gcg ctt cga 149 
Phe Val Val Phe Leu Leu Val Thr Leu Ala lie Leu Thr Ala Leu Arg 
25 30 35 

ttg tgt gcg tac tgc tgc aat att gtt aac gtg agt tta gta aaa cca 197 
Leu cys Ala Tyr cys cys Asn lie Val Asn val Ser Leu val Lys Pro 
40 45 50 
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SS ?S 5f 8S f SS 83 5! SS E3 SS IS 12 §S f 

gtt cct gat ctt ctg gtc taaacgaact aactattatt attattctgt 
val Pro Asp Leu Leu val 
75 

ttggaacttt aacattgctt atcatggcag acaacggta 

<210> 14<211> 76<212> PRT<213> CORONAVIRUS<400> 14 

Met Tyr Ser Phe Val ser Glu Glu Thr Gly Thr Leu lie val Asn sen 
1 5 1U 

val Leu Leu Phe Leu Ala Phe Val Val Phe Leu Leu val Thr Leu Ala 
20 " 

He Leu Thr Ala Leu Arg Leu cys Ala Tyr cys cys Asn He val Asn 
35 40 

val ser Leu val Lys Pro Thr Val Tyr Val Tyr ser Arg Val Lys Asn 
50 55 

Leu Asn ser ser Glu Gly val Pro Asp Leu Leu val 
65 70 /:> 

U/ , 11s ^^?<:212> DNA<213> CORONAVIRUS<400> 15 
JgcSttgt? a^acllgaaagtgaSiacg aacttatgta ctcattcgtt tcggaagaaa 60 

caggtacgtt aatagttaat agcgtacttc tttttcttgc tttcgtggta ttcttgctag 

tcacactagc catccttact gcgcttcgat tgtgtgcgta ctgctgcaat attgttaacg 

tgagtttagt aaaaccaacg gtttacgtct actcgcgtgt taaaaatctg aactcttctg 

aaggagttcc tgatcttctg gtctaaacga actaactatt attattattc tgtttggaac 

tttaacattg cttatcatgg cagacaacgg ta 

<210> 16<211> 708<212> DNA<213> CORONAVIRUS<220><221> COS<222> 
C41)..(703)<223> 



120 
180 
240 
300 
332 



.Sattatt attctgtttg gaactttaac attgcttatc atg gca gac aac ggt 

1 5 

art att acc qtt qag gag ctt aaa caa etc ctg gaa caa tgg aac eta 
Thr il 5 Thr val Glu Glu Leu Lys Gin Leu Leu Glu Gin Trp Asn Leu 
10 lb 

88 SS Ifv He SS SS SS fiS fp "1 SI? SS SS ffS Phi HS 
Sf 12 SS SS SS 38 SI £2 K SS 58 SS 8H SJ SS 

40 45 
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38 25 22 3? 555 83 35 25 31 gj 52 ?3 25 35 35 S3 247 
f S 35 35 38 ?|? 35 a* fl* & fij Hj jg .g jet lf 295 

75 80 85 

S3? 2? c } tg at 9 t 99 ctt age tac ttc gtt get tec ttc aaa rtn a** 
He val cfy Leu Met Trp Leu ser Tyr Phe val Ala Itr Phe Arg Leu 343 
3U 95 100 

555 35 25 35 S5 iS 53 38 S 35 35 S3 BS fS 35 35 391 



115 



555 25 § ?3 S 25 31 if? 33 35 S5? 35 31 38 25 S3 439 

A ^ V 125 130 

IfS 8? 35 25 S3 K ^ H* ?*? & gj «* « g « 87 
«3 35 ft £3 13 S fl? 25 SJ 35 SK K If5 53 32 35 535 

A:o 160 165 

88 SS 35 S3 IS S S 35 3? 25 IS 35 35 53 25 3? 583 

x/u 175 180 

31 13 53 8} S3 35 35 35 13 83 555 35 35 § 35 53 631 
35 35 35 SB SS 35 53 52 35 35 35 S3 35 13 35 35 679 

205 210 
gac aat att get ttg eta ata caa taaoi- 

Asp Asn lie Ala Leu Leu Sal Gin 9 708 
215 220 

<210> 17<211> 221<212> PRT<213> CORONAVIRUS<400> 17 

Met Ala Asp Asn Gly Thr He Thr Val Glu Glu Leu Lys Gin Leu Leu 
5 10 15 

Glu Gin Trp Asn Leu val He Gly Phe Leu Phe Leu Ala Trp He Met 
^ 2 5 30 

Leu Leu Gin Phe Ala Tyr ser Asn Arg Asn Arg Phe Leu Tyr lie He 

40 45 

Lys Leu val Phe Leu Trp Leu Leu Trp Pro Val Thr Leu Ala cys Phe 

■>-> 50 

val Leu Ala Ala Val Tyr Arg He Asn Trp val Thr Gly Gly He Ala 

/u 75 80 

He Ala Met Ala Cys He val Gly Leu Met Trp Leu Ser Tyr Phe val 

Page 36 




S226CAS111.ST25 
85 90 95 

Ala ser Phe Arg Leu Phe Ala Arg Thr Arg ser Met Trp ser Phe Asn 
100 105 HO 

Pro Glu Thr Asn lie Leu Leu Asn val Pro Leu Arg Gly Thr He val 
115 120 125 

Thr Arq pro Leu Met Glu ser Glu Leu Val lie Gly Ala Val lie He 
130 135 140 

Arg Gly His Leu Arg Met Ala Gly His ser Leu Gly Arg cys Asp lie 
145 150 155 160 

lvs Asp Leu Pro Lys Glu lie Thr Val Ala Thr ser Arg Thr Leu ser 
165 170 175 

Tyr Tyr Lys Leu Gly Ala Ser Gin Arg val Gly Thr Asp Ser Gly Phe 

Ala Ala Tyr Asn Arg Tyr Arg He Gly Asn Tyr Lys Leu Asn Thr Asp 
195 200 205 

His Ala Gly ser Asn Asp Asn lie Ala Leu Leu val Gin 
210 215 220 



<210> 18<211> 769<212> DNA<213> COR0NAVIRUS<400> 18 
cctgatcttc tggtctaaac gaactaacta ttattattat tctgtttgga actttaacat 


60 


tgcttatcat 


ggcagacaac 


ggtactatta 


ccgttgagga. 


gcttaaacaa 


ctcctggaac 


120 


aatggaacct 


agtaataggt 


ttcctattcc 


tagcctggat 


tatgttacta 


caatttgcct 


180 


attctaatcg 


gaacaggttt 


ttgtacataa 


taaagcttgt 


tttcctctgg 


ctcttgtggc 


240 


cagtaacact 


tgcttgtttt 


gtgcttgctg 


ctgtctacag 


aattaattgg 


gtgactggcg 


300 


ggattgcgat 


tgcaatggct 


ngtattgtag 


gcttgatgtg 


gcttagctac 


ttcgttgctt 


360 


ccttcaggct 


gtttgctcgt 


acccgctcaa 


tgtggtcatt 


caacccagaa 


acaaacattc 


420 


ttctcaatgt 


gcctctccgg 


gggacaattg 


tgaccagacc 


gctcatggaa 


agtgaacttg 


480 


tcattggtgc 


tgtgatcatt 


cgtggtcact 


tgcgaatggc 


cggacactcc 


ctagggcgct 


540 


gtgacattaa 


ggacctgcca 


aaagagatca 


ctgtggctac 


atcacgaacg 


ctttcttatt 


600 


acaaattagg 


agcgtcgcag 


cgtgtaggca 


ctgattcagg 


ttttgctgca 


tacaaccgct 


660 


accgtattgg 


aaactataaa 


ttaaatacag 


accacgccgg 


tagcaacgac 


aatattgctt 


720 


tgctagtaca 


gtaagtgaca 


acagatgttt 


catcttgttg 


acttccagg 




769 



<210> 19<211> 1231<212> DNA<213> CORONAVIRUS<400> 19 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 
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agagatattg 


attatcatta 


tgaggacttt 


S226CAS111. 
caggattgct 


ST25 

atttggaatc ttgacgttat 


180 


aataagttca 


atagtgagac 


aattatttaa 


gcctctaact 


aagaagaatt attcggagtt 


240 


agatgatgaa 


gaacctatgg 


agttagatta 


tccataaaac 


gaacatgaaa attattctct 


300 


tcctgacatt 


gattgtattt 


acatcttgcg 


agctatatca 


ctatcaggag tgtgttagag 


360 


gtacgactgt 


actactaaaa 


gaaccttgcc 


catcaggaac 


atacgagggc aattcaccat 


420 


ttcaccctct 


tgctgacaat 


aaatttgcac 


taacttgcac 


tagcacacac tttgcttttg 


480 


cttgtgctga 


cggtactcga 


catacctatc 


agctgcgtgc 


aagatcagtt tcaccaaaac 


540 


ttttcatcag 


acaagaggag 


gttcaacaag 


agctctactc 


gccacttttt ctcattgttg 


600 


ctgctctagt 


atttttaata 


ctttgcttca 


ccattaagag 


aaagacagaa tgaatgagct 


660 


cactttaatt 


gacttctatt 


tgtgcttttt 


agcctttctg 


ctattccttg ttttaataat 


720 


gcttattata 


ttttggtttt 


cactcgaaat 


ccaggatcta 


gaagaacctt gtaccaaagt 


780 


ctaaacgaac 


atgaaacttc 


tcattgtttt 


gacttgtatt 


tctctatgca gttgcatatg 


840 


cactgtagta 


cagcgctgtg 


catctaataa 


acctcatgtg 


cttgaagatc cttgtaaggt 


900 


acaacactag 


gggtaatact 


tatagcactg 


cttggctttg 


tgctctagga aaggttttac 


960 


cttttcatag 


atggcacact 


atggttcaaa 


catgcacacc 


taatgttact atcaactgtc 


1020 


aagatccagc 


tggtggtgcg 


cttatagcta 


ggtgttggta 


ccttcatgaa ggtcaccaaa 


1080 


ctgctgcatt 


tagagacgta 


cttgttgttt 


taaataaacg 


aacaaattaa aatgtctgat 


1140 


aatggacccc 


aatcaaacca 


acgtagtgcc 


ccccgcatta 


catttggtgg acccacagat 


1200 


tcaactgaca 


ataaccagaa 


tggaggacgc 


a 




1231 



<210> 20<211> 1242<212> DNA<213> CORONAVIRUS<400> 20 

gcatacaacc gctaccgtat tggaaactat aaattaaata cagaccacgc cggtagcaac 60 

gacaatattg ctttgctagt acagtaagtg acaacagatg tttcatcttg ttgacttcca 120 

ggttacaata gcagagatat tgattatcat tatgaggact ttcaggattg ctatttggaa 180 

tcttgacgtt ataataagtt caatagtgag acagttattt aagcctctaa ctaagaagaa 240 

ttattcggag ttagatgatg aagaacctat ggagttagat tatccataaa acgaacatga 300 

aaattattct cttcctgaca ttgattgtat ttacatcttg cgagctatat cactatcagg 360 

agtgtgttag aggtacgact gtactactaa aagaaccttg cccatcagga acatacgagg 420 

gcaattcacc atttcaccct cttgctgaca ataaatttgc actaacttgc actagcacac 480 

actttgcttt tgcttgtgct gacggtactc gacataccta tcagctgcgt gcaagatcag 540 

tttcaccaaa acttttcatc agacaagagg aggttcaaca agagctctac tcgccacttt 600 

ttctcattgt tgctgctcta gtatttttaa tactttgctt caccattaag agaaagacag 660 

aatgaatgag ctcactttaa ttgacttcta tttgtgcttt ttagcctttc tgctattcct 720 

tgttttaata atgcttatta tattttggtt ttcactcgaa atccaggatc tagaagaacc 780 

ttgtaccaaa gtctaaacga acatgaaact tctcattgtt ttgacttgta tttctctatg 840 
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cagttgcata tgcactgtag tacagcgctg tgcatctaat aaacctcatg tgcttgaaga 900 

tccttgtaag gtacaacact aggggtaata cttatagcac tgcttggctt tgtgctctag 960 

gaaaggtttt accttttcat agatggcaca ctatggttca aacatgcaca cctaatgtta 1020 

ctatcaactg tcaagatcca gctggtggtg cgcttatagc taggtgttgg taccttcatg 1080 

aaggtcacca aactgctgca tttagagacg tacttgttgt tttaaataaa cgaacgaatt 1140 

aaaatgtctg ataatggacc ccaatcaaac caacgtagtg ccccccgcat tacatttggt 1200 

ggacccacag attcaactga caataaccag aatggaggac gc 1242 

<210> 21<211> 1231<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
(86)..C274)<223> 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacag atg ttt cat ctt gtt gac ttc cag gtt 112 

Met Phe His Leu Val Asp Phe Gin Val 
1 5 

aca ata gca gag ata ttg att ate att atg agg act ttc agg att get 160 

Thr He Ala Glu lie Leu lie lie lie Met Arg Thr Phe Arg lie Ala 

10 15 20 25 

att tgg aat ctt gac gtt ata ata agt tea ata gtq aga caa tta ttt 208 
lie Trp Asn Leu Asp Val lie lie Ser Ser lie Val Arg Gin Leu Phe 
30 35 40 

256 



304 



aag cct eta act aag aag aat tat teg gag tta gat gat gaa gaa cct 
Lys Pro Leu Thr Lys Lys Asn Tyr Ser Glu Leu Asp Asp Glu Glu Pro 
45 50 55 

atg gag tta gat tat cca taaaacgaac atgaaaatta ttctcttcct 
Met Glu Leu Asp Tyr Pro 
60 

gacattgatt gtatttacat ettgegaget atatcactat caggagtgtg ttagaggtac 364 

gactgtacta ctaaaagaac cttgcccatc aggaacatac gagggcaatt caccatttca 424 

ccctcttgct gacaataaat ttgeactaac ttgeactage acacactttg ettttgettg 484 

tgctgacggt actcgacata cctatcagct gcgtgcaaga tcagtttcac caaaactttt 544 

catcagacaa gaggaggttc aacaagagct ctactcgcca ctttttctca ttgttgctgc 604 

tctagtattt ttaatacttt gcttcaccat taagagaaag acagaatgaa tgagctcact 664 

ttaattgact tctatttgtg etttttagee tttctgetat tccttgtttt aataatgett 724 

attatatttt ggttttcact cgaaatccag gatctagaag aaccttgtac caaagtctaa 784 

acgaacatga aacttctcat tgttttgact tgtatttctc tatgcagttg catatgeact 844 

gtagtacagc gctgtgcatc taataaacct catgtgcttg aagatccttg taaggtacaa 904 

cactaggggt aatacttata geactgettg gctttgtgct ctaggaaagg ttttaccttt 964 

tcatagatgg cacactatgg ttcaaacatg cacacctaat gttactatca actgtcaaga 1024 

tccagctggt ggtgcgctta tagctaggtg ttggtacctt catgaaggtc accaaactgc 1084 

tgcatttaga gaegtacttg ttgttttaaa taaacgaaca aattaaaatg tctgataatg 1144 
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gaccccaatc aaaccaacgt agtgcccccc gcattacatt tggtggaccc acagattcaa 
ctgacaataa ccagaatgga ggacgca 



1204 
1231 



<210> 22<211> 63<212> PRT<213> CORONAVIRUS<400> 22 

Met Phe His Leu val Asp Phe Gin val Thr lie Ala Glu lie Leu lie 
1 5 10 15 

lie lie Met Arg Thr Phe Arg lie Ala lie Trp Asn Leu Asp val lie 
20 ~ 25 30 

lie Ser Ser lie val Arg Gin Leu Phe Lys Pro Leu Thr Lys Lys Asn 
35 40 45 

Tyr ser Glu Leu Asp Asp Glu Glu Pro Met Glu Leu Asp Tyr Pro 
50 55 60 

<210> 23<211> 1231<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
C285). .(650)<223> 

<400> 23 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 

agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 180 

aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 240 

agatgatgaa gaacctatgg agttagatta tccataaaac gaac atg aaa att att 296 

Met Lys lie lie 
1 

etc ttc ctg aca ttg att gta ttt aca tct tgc gag eta tat cac tat 344 
Leu Phe Leu Thr Leu lie Val Phe Thr Ser Cys Glu Leu Tyr His Tyr 
5 10 15 20 

cag gag tgt gtt aga gqt acg act gta eta eta aaa gaa cct tgc cca 392 
Gin Glu Cys val Arg Gly Thr Thr val Leu Leu Lys Glu Pro Cys Pro 
25 30 35 

tea gga aca tac gag gqc aat tea cca ttt cac cct ctt get gac aat 440 
Ser Gly Thr Tyr Glu Gly Asn ser Pro Phe His Pro Leu Ala Asp Asn 
40 45 50 

aaa ttt gca eta act tgc act age aca cac ttt get ttt get tgt get 488 
Lys Phe Ala Leu Thr Cys Thr Ser Thr His Phe Ala Phe Ala Cys Ala 
55 60 65 

gac gqt act cga cat ace tat cag ctg cgt gca aga tea gtt tea cca 536 
Asp Gly Thr Arg His Thr Tyr Gin Leu Arg Ala Arg ser val Ser Pro 
70 75 ~ 80 

aaa ctt ttc ate aga caa gag gag gtt caa caa gag etc tac teg cca 584 
Lys Leu Phe lie Arg Gin Glu Glu val Gin Gin Glu Leu Tyr ser Pro 
85 90 95 100 

ctt ttt etc att gtt get get eta gta ttt tta ata ctt tgc ttc ace 632 
Leu Phe Leu lie Val Ala Ala Leu val Phe Leu lie Leu cys Phe Thr 
105 110 115 
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att aag aga aag aca gaa tgaatgagct cactttaatt gacttctatt 680 
lie Lys Arg Lys Thr Glu 
120 

tgtgcttttt agcctttctg ctattccttg ttttaataat gcttattata ttttggtttt 740 

cactcgaaat ccaggatcta gaagaacctt gtaccaaagt ctaaacgaac atgaaacttc 800 

tcattgtttt gacttgtatt tctctatgca gttgcatatg cactgtagta cagcgctgtg 860 

catctaataa acctcatgtg cttgaagatc cttgtaaggt acaacactag gggtaatact 920 

tatagcactg cttggctttg tgctctagga aaggttttac cttttcatag atggcacact 980 

atggttcaaa catgcacacc taatgttact atcaactgtc aagatccagc tggtggtgcg 1040 

cttatagcta ggtgttggta ccttcatgaa ggtcaccaaa ctgctgcatt tagagacgta 1100 

cttgttgttt taaataaacg aacaaattaa aatgtctgat aatggacccc aatcaaacca 1160 

acgtagtgcc ccccgcatta catttggtgg acccacagat tcaactgaca ataaccagaa 1220 

tggaggacgc a 1231 

<210> 24<211> 122<212> PRT<213> CORONAVIRUS<400> 24 

Met Lys lie lie Leu Phe Leu Thr Leu lie val Phe Thr ser cys Glu 
15 10 15 

Leu Tyr His Tyr Gin Glu cys val Arg Gly Thr Thr val Leu Leu Lys 
20 25 30 

Glu Pro Cys Pro ser Gly Thr Tyr Glu Gly Asn Ser Pro Phe His Pro 
35 40 45 

Leu Ala Asp Asn Lys Phe Ala Leu Thr Cys Thr ser Thr His Phe Ala 
50 55 60 

Phe Ala cys Ala Asp Gly Thr Arg His Thr Tyr Gin Leu Arg Ala Arg 
65 70 75 80 

ser val ser Pro Lys Leu Phe lie Arg Gin Glu Glu val Gin Gin Glu 
85 90 95 

Leu Tyr ser Pro Leu Phe Leu He Val Ala Ala Leu Val Phe Leu He 
100 105 110 

Leu cys Phe Thr lie Lys Arg Lys Thr Glu 
115 120 



<210> 25<211> 1231<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
C650) . . (781)<223> 

<400> 25 

taccgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattgct 60 

ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 

agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 180 
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aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 
agatgatgaa gaacctatgg agttagatta tccataaaac gaacatgaaa attattctct 
tcctgacatt gattgtattt acatcttgcg agctatatca ctatcaggag tgtgttagag 
gtacgactgt actactaaaa gaaccttgcc catcaggaac atacgagggc aattcaccat 
ttcaccctct tgctgacaat aaatttgcac taacttgcac tagcacacac tttgcttttg 
cttgtgctga cggtactcga catacctatc agctgcgtgc aagatcagtt tcaccaaaac 
ttttcatcag acaagaggag gttcaacaag agctctactc gccacttttt ctcattgttg 
ctgctctagt atttttaata ctttgcttca ccattaagag aaagacaga atg aat gag 

1 

Si SJ £S SR SS S5 5? 22 SS S2 S fS SS S3 Si SS 

5 10 -° 

ata ata ctt att ata ttt tgg ttt tea etc gaa ate cag 
SS ?al S! ?S 53 SS tie He Phe Trp Phe Ser Leu Glu He Gin 
20 25 30 

qat eta gaa gaa cct tgt acc aaa gtc taaacgaaca tgaaacttct 
asp Leu Glu Glu Pro cys Thr Lys val 
40 

cattgttttg acttgtattt etctatgeag ttgcatatgc actgtagtac agcgctgtgc 
atctaataaa cctcatgtgc ttgaagatcc ttgtaaggta caacactagg ggtaatactt 
atagcactgc ttggctttgt gctctaggaa aggttttacc ttttcataga tggcacacta 
tggttcaaac atgcacacct aatgttacta tcaactgtca agatccagct ggtggtgcgc 
ttatagctag gtgttggtac cttcatgaag gtcaccaaac tgctgcattt agagaegtae 
ttgttgtttt aaataaacga acaaattaaa atgtctgata atggacccca atcaaaccaa 
cgtagtgccc cccgcattac atttggtgga cccacagatt caactgacaa taaccagaat 
ggaggacgca 

<210> 26<211> 44<212> PRT<213> CORONAVIRUS<400> 26 

Met Asn Glu Leu Thr Leu He Asp Phe Tyr Leu cys Phe Leu Ala Phe 
15 10 15 

Leu Leu Phe Leu val Leu He Met Leu lie He Phe Trp Phe Ser Leu 



20 



240 
300 
360 
420 
480 
540 
600 
658 

706 

754 

801 

861 
921 
981 
1041 
1101 
1161 
1221 
1231 



Glu He Gin Asp Leu Glu Glu Pro cys Thr Lys val 
35 40 

<210> 27<211> 1231<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
C791)..(907)<223> 

tlixgtattg gaaactataa attaaataca gaccacgccg gtagcaacga caatattget 60 
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ttgctagtac agtaagtgac aacagatgtt tcatcttgtt gacttccagg ttacaatagc 120 

agagatattg attatcatta tgaggacttt caggattgct atttggaatc ttgacgttat 

aataagttca atagtgagac aattatttaa gcctctaact aagaagaatt attcggagtt 

agatgatgaa gaacctatgg agttagatta tccataaaac gaacatgaaa attattctct 

tcctgacatt gattgtattt acatcttgcg agctatatca ctatcaggag tgtgttagag 

gtacgactgt actactaaaa gaaccttgcc catcaggaac atacgagggc aattcaccat 

ttcaccctct tgctgacaat aaatttgcac taacttgcac tagcacacac tttgcttttg 

cttgtgctga cggtactcga catacctatc agctgcgtgc aagatcagtt tcaccaaaac 

ttttcatcag acaagaggag gttcaacaag agctctactc gccacttttt ctcattgttg 

ctgctctagt atttttaata ctttgcttca ccattaagag aaagacagaa tgaatgagct 

cactttaatt gacttctatt tgtgcttttt agcctttctg ctattccttg ttttaataat 

gcttattata ttttggtttt cactcgaaat ccaggatcta gaagaacctt gtaccaaagt 

ctaaac 9 aac atg aaa ctt etc gt jjt «, act gt att tet «a ge 

1 5 10 

ss §s ss $ ss «s «a as 25 ss « f *" ss ss ss 

15 20 Zi) 

gtg ctt gaa gat cct tgt aag gta caa cac taggggtaat acttatagca 
val Leu Glu Asp Pro cys Lys val Gin His 
30 35 

ctgcttggct ttgtgctcta ggaaaggttt taccttttca tagatggcac actatggttc 
aaacatgeae acctaatgtt actatcaact gtcaagatcc agctggtggt gegcttatag 
ctaggtgttg gtaccttcat gaaggtcacc aaactgctgc atttagagac gtacttgttg 
ttttaaataa acgaacaaat taaaatgtct gataatggac cccaatcaaa ecaaegtagt 
gccccccgca ttacatttgg tggacccaca gattcaactg acaataacca gaatggagga 
cgea 

<210> 28<211> 39<212> PRT<213> CORONAVIRUS<400> 28 
Met Lys Leu Leu lie val Leu Thr Cys lie ser Leu Cys ser cys He 



1 



cys Thr val val Gin Arg cys Ala ser Asn Lys Pro His val Leu Glu 



20 



Asp Pro cys Lys val Gin His 
35 



180 
240 
300 
360 
420 
480 
540 
600 
660 
720 
780 
829 

877 

927 

987 
1047 
1107 
1167 
1227 
1231 



<210> 29<211> 1231<212> ONA<213> CORONAVIRUS<220><221> COS<222> 
(876)..C1127)<223> 

^a?cgtat?g gaaactataa attaaataca gaccacgccg gtagcaacga caatattget 60 
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ttgctagtac 


agtaagtgac 


aacagatgtt 


tcatcttgtt 


gacttccagg 


ttacaatagc 


120 


agagatattg 


attatcatta 


tgaggacttt 


caggattgct 


atttggaatc 


ttgacgttat 


180 


aataagttca 


atagtgagac 


aattatttaa 


gcctctaact 


aagaagaatt 


attcggagtt 


240 


agatgatgaa 


gaacctatgg 


agttagatta 


tccataaaac 


gaacatgaaa 


attattctct 


300 


tcctgacatt 


gattgtattt 


acatcttgcg 


agctatatca 


ctatcaggag 


tgtgttagag 


360 


gtacgactgt 


actactaaaa 


gaaccttgcc 


catcaggaac 


atacgagggc 


aattcaccat 


420 


ttcaccctct 


tgctgacaat 


aaatttgcac 


taacttgcac 


tagcacacac 


tttgcttttg 


480 


cttgtgctga 


cggtactcga 


catacctatc 


agctgcgtgc 


aagatcagtt 


tcaccaaaac 


540 


ttttcatcag 


acaagaggag 


gttcaacaag 


agctctactc 


gccacttttt 


ctcattgttg 


600 


ctgctctagt 


atttttaata 


ctttgcttca 


ccattaagag 


aaagacagaa 


tgaatgagct 


660 


cactttaatt 


gacttctatt 


tgtgcttttt 


agcctttctg 


ctattccttg 


ttttaataat 


720 


gcttattata 


ttttggtttt 


cactcgaaat 


ccaggatcta 


gaagaacctt 


gtaccaaagt 


780 


ctaaacgaac 


atgaaacttc 


tcattgtttt 


gacttgtatt 


tctctatgca 


gttgcatatg 


840 


cactgtagta 


cagcgctgtg 


catctaataa 


acctc atg tgc ttg aag 
Met cys Leu Lys 
1 


ate ctt 
lie Leu 
5 


893 



gta agg tac aac act agg gqt aat act tat age act get tgg ctt tgt 941 
val Arg Tyr Asn Thr Arg Gly Asn Thr Tyr ser Thr Ala Trp Leu cys 
10 15 20 

get eta gga aag gtt tta cct ttt cat aga tgg cac act atg gtt caa 989 
Ala Leu Gly Lys val Leu Pro Phe His Arg Trp His Thr Met val Gin 
25 30 35 

aca tgc aca cct aat gtt act ate aac tgt caa gat cea get gqt gqt 1037 
Thr Cys Thr Pro Asn Val Thr lie Asn Cys Gin Asp Pro Ala Gly Gly 
40 45 50 

gcg ctt ata get agg tgt tgg tac ctt cat gaa gqt cac caa act get 1085 
Ala Leu lie Ala Arg Cys Trp Tyr Leu His Glu Gly His Gin Thr Ala 
55 60 65 70 

gca ttt aga gac gta ctt gtt gtt tta aat aaa cga aca aat 1127 
Ala Phe Arg Asp Val Leu Val Val Leu Asn Lys Arg Thr Asn 
75 80 

taaaatgtct gataatggac cccaatcaaa ecaaegtagt gccccccgca ttacatttgg 1187 

tggacccaca gattcaactg acaataacca gaatggagga cgea 1231 



<210> 30<211> 84<212> PRT<213> CORONAVIRUS<400> 30 

Met Cys Leu Lys lie Leu val Arg Tyr Asn Thr Arg Gly Asn Thr Tyr 
15 10 15 



ser Thr Ala Trp Leu cys Ala Leu Gly Lys val Leu Pro Phe His Arg 
20 25 30 

Trp His Thr Met Val Gin Thr Cys Thr Pro Asn val Thr lie Asn cys 
35 40 45 
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Gin Asp Pro Ala Gly Gly Ala Leu lie Ala Arg Cys Trp Tyr Leu His 
50 55 60 

Glu Gly His Gin Thr Ala Ala Phe Arg Asp val Leu val val Leu Asn 
65 70 75 80 

Lys Arg Thr Asn 

<210> 31<211> 21221<212> DNA<213> CORONAVIRUS<400> 31 

atggagagcc ttgttcttgg tgtcaacgag aaaacacacg tccaactcag tttgcctgtc 60 

cttcaggtta gagacgtgct agtgcgtggc ttcggggact ctgtggaaga ggccctatcg 120 

gaggcacgtg aacacctcaa aaatggcact tgtggtctag tagagctgga aaaaggcgta 180 

ctgccccagc ttgaacagcc ctatgtgttc attaaacgtt ctgatgcctt aagcaccaat 240 

cacggccaca aggtcgttga gctggttgca gaaatggacg gcattcagta cggtcgtagc 300 

ggtataacac tgggagtact cgtgccacat gtgggcgaaa ccccaattgc ataccgcaat 360 

gttcttcttc gtaagaacgg taataaggga gccggtggtc atagctatgg catcgatcta 420 

aagtcttatg acttaggtga cgagcttggc actgatccca ttgaagatta tgaacaaaac 480 

tggaacacta agcatggcag tggtgcactc cgtgaactca ctcgtgagct caatggaggt 540 

gcagtcactc gctatgtcga caacaatttc tgtggcccag atgggtaccc tcttgattgc 600 

atcaaagatt ttctcgcacg cgcgggcaag tcaatgtgca ctctttccga acaacttgat 660 

tacatcgagt cgaagagagg trgtctactgc tgccgtgacc atgagcatga aattgcctgg 720 

ttcactgagc gctctgataa gagctacgag caccagacac ccttcgaaat taagagtgcc 780 

aagaaatttg acactttcaa aggggaatgc ccaaagtttg tgtttcctct taactcaaaa 840 

gtcaaagtca ttcaaccacg tgttgaaaag aaaaagactg agggtttcat ggggcgtata 900 

cgctctgtgt accctgttgc atctccacag gagtgtaaca atatgcactt gtctaccttg 960 

atgaaatgta atcattgcga tgaagtttca tggcagacgt gcgacnttct gaaagccact 1020 

tgtgaacatt gtggcactga aaatttagtt attgaaggac ctactacatg tgggtaccta 1080 

cctactaatg ctgtagtgaa aatgccatgt cctgcctgtc aagacccaga gattggacct 1140 

gagcatagtg ttgcagatta tcacaaccac tcaaacattg aaactcgact ccgcaaggga 1200 

ggtaggacta gatgttttgg aggctgtgtg tttgcctatg ttggctgcta taataagcgt 1260 

gcctactggg ttcctcgtgc tagtgctgat attggctcag gccatactgg cattactggt 1320 

gacaatgtgg agaccttgaa tgaggatctc cttgagatac tgagtcgtga acgtgttaac 1380 

attaacattg ttggcgattt tcatttgaat gaagaggttg ccatcatttt ggcatctttc 1440 

tctgcttcta caagtgcctt tattgacact ataaagagtc ttgattacaa gtctttcaaa 1500 

accattgttg agtcctgcgg taactataaa gttaccaagg gaaagcccgt aaaaggtgct 1560 

tggaacattg gacaacagag atcagtttta acaccactgt gtggttttcc ctcacaggct 1620 
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gctggtgtta tcagatcaat ttttgcgcgc acacttgatg cagcaaacca ctcaattcct 

gatttgcaaa gagcagctgt caccatactt gatggtattt ctgaacagtc attacgtctt 

gtcgacgcca tggtttatac ttcagacctg ctcaccaaca gtgtcattat tatggcatat 

gtaactggtg gtcttgtaca acagacttct cagtggttgt ctaatctttt gggcactact 

gttgaaaaac tcaggcctat ctttgaatgg attgaggcga aacttagtgc aggagttgaa 

tttctcaagg atgcttggga gattctcaaa tttctcatta caggtgtttt tgacatcgtc 

aagggtcaaa tacaggttgc ttcagataac atcaaggatt gtgtaaaatg cttcattgat 

gttgttaaca aggcactcga aatgtgcatt gatcaagtca ctatcgctgg cgcaaagttg 

cgatcactca acttaggtga agtcttcatc gctcaaagca agggacttta ccgtcagtgt 

atacgtggca aggagcagct gcaactactc atgcctctta aggcaccaaa agaagtaacc 

tttcttgaag gtgattcaca tgacacagta cttacctctg aggaggttgt tctcaagaac 

ggtgaactcg aagcactcga gacgcccgtt gatagcttca caaatggagc tatcgttggc 2340 

acaccagtct gtgtaaatgg cctcatgctc ttagagatta aggacaaaga acaatactgc 2400 

gcattgtctc ctggtttact ggctacaaac aatgtctttc gcttaaaagg gggtgcacca 2460 

attaaaggtg taacctttgg agaagatact gtttgggaag ttcaaggtta caagaatgtg 2520 

agaatcacat ttgagcttga tgaacgtgtt gacaaagtgc ttaatgaaaa gtgctctgtc 2580 

tacactgttg aatccggtac cgaagttact gagtttgcat gtgttgtagc agaggctgtt 2640 

gtgaagactt tacaaccagt ttctgatctc cttaccaaca tgggtattga tcttgatgag 2700 

tggagtgtag ctacattcta cttatttgat gatgctggtg aagaaaactt ttcatcacgt 2760 

atgtattgtt ccttttaccc tccagatgag gaagaagagg acgatgcaga gtgtgaggaa 2820 

gaagaaattg atgaaacctg tgaacatgag tacggtacag aggatgatta tcaaggtctc 2880 

cctctggaat ttggtgcctc agctgaaaca gttcgagttg aggaagaaga agaggaagac 2940 

tggctggatg atactactga gcaatcagag attgagccag aaccagaacc tacacctgaa 3000 

gaaccagtta atcagtttac tggttattta aaacttactg acaatgttgc cattaaatgt 3060 

gttgacatcg ttaaggaggc acaaagtgct aatcctatgg tgattgtaaa tgctgctaac 3120 

atacacctga aacatggtgg tggtgtagca ggtgcactca acaaggcaac caatggtgcc 3180 

atgcaaaagg agagtgatga ttacattaag ctaaatggcc ctcttacagt aggagggtct 3240 

tgtttgcttt ctggacataa tcttgctaag aagtgtctgc atgttgttgg acctaaccta 3300 

aatgcaggtg aggacatcca gcttcttaag gcagcatatg aaaatttcaa ttcacaggac 3360 

atcttacttg caccattgtt gtcagcaggc atatttggtg ctaaaccact tcagtcttta 3420 

caagtgtgcg tgcagacggt tcgtacacag gtttatattg cagtcaatga caaagctctt 3480 

tatgagcagg ttgtcatgga ttatcttgat aacctgaagc ctagagtgga agcacctaaa 3540 

caagaggagc caccaaacac agaagattcc aaaactgagg agaaatctgt cgtacagaag 3600 

cctgtcgatg tgaagccaaa aattaaggcc tgcattgatg aggttaccac aacactggaa 3660 

Page 46 



S226CAS1U.ST25 

gaaactaagt ttcttaccaa taagttactc ttgtttgctg atatcaatgg taagctttac 3720 

catgattctc agaacatgct tagaggtgaa gatatgtctt tccttgagaa ggatgcacct 3780 

tacatggtag gtgatgttat cactagtggt gatatcactt gtgttgtaat accctccaaa 3840 

aaggctggtg gcactactga gatgctctca agagctttga agaaagtgcc agttgatgag 3900 

tatataacca cgtaccctgg acaaggatgt gctggttata cacttgagga agctaagact 3960 

gctcttaaga aatgcaaatc tgcattttat gtactacctt cagaagcacc taatgctaag 4020 

gaagagattc taggaactgt atcctggaat ttgagagaaa tgcttgctca tgctgaagag 4080 

acaagaaaat taatgcctat atgcatggat gttagagcca taatggcaac catccaacgt 4140 

aagtataaag gaattaaaat tcaagagggc atcgttgact atggtgtccg attcttcttt 4200 

tatactagta aagagcctgt agcttctatt attacgaagc tgaactctct aaatgagccg 4260 

cttgtcacaa tgccaattgg ttatgtgaca catggtttta atcttgaaga ggctgcgcgc 4320 

tgtatgcgtt ctcttaaagc tcctgccgta gtgtcagtat catcaccaga tgctgttact 4380 

acatataatg gatacctcac ttcgtcatca aagacatctg aggagcactt tgtagaaaca 4440 

gtttctttgg ctggctctta cagagattgg tcctattcag gacagcgtac agagttaggt 4500 

gttgaatttc ttaagcgtgg tgacaaaatt gtgtaccaca ctctggagag ccccgtcgag 4560 

tttcatcttg acggtgaggt tctttcactt gacaaactaa agagtctctt atccctgcgg 4620 

gaggttaaga ctataaaagt gttcacaact gtggacaaca ctaatctcca cacacagctt 4680 

gtggatatgt ctatgacata tggacagcag tttggtccaa catacttgga tggtgctgat 4740 

gttacaaaaa ttaaacctca tgtaaatcat gagggtaaga ctttctttgt actacctagt 4800 

gatgacacac tacgtagtga agctttcgag tactaccata ctcttgatga gagttttctt 4860 

ggtaggtaca tgtctgcttt aaaccacaca aagaaatgga aatttcctca agttggtggt 4920 

ttaacttcaa ttaaatgggc tgataacaat tgttatttgt ctagtgtttt attagcactt 4980 

caacagcttg aagtcaaatt caatgcacca gcacttcaag aggcttatta tagagcccgt 5040 

gctggtgatg ctgctaactt ttgtgcactc atactcgctt acagtaataa aactgttggc 5100 

gagcttggtg atgtcagaga aactatgacc catcttctac agcatgctaa tttggaatct 5160 

gcaaagcgag ttcttaatgt ggtgtgtaaa cattgtggtc agaaaactac taccttaacg 5220 

ggtgtagaag ctgtgatgta tatgggtact ctatcttatg ataatcttaa gacaggtgtt 5280 

tccattccat gtgtgtgtgg tcgtgatgct acacaatatc tagtacaaca agagtcttct 5340 

tttgttatga tgtctgcacc acctgctgag tataaattac agcaaggtac attcttatgt 5400 

gcgaatgagt acactggtaa ctatcagtgt ggtcattaca ctcatataac tgctaaggag 5460 

accctctatc gtattgacgg agctcacctt acaaagatgt cagagtacaa aggaccagtg 5520 

actgatgttt tctacaagga aacatcttac actacaacca tcaagcctgt gtcgtataaa 5580 

ctcgatggag ttacttacac agagattgaa ccaaaattgg atgggtatta taaaaaggat 5640 

aatgcttact atacagagca gcctatagac cttgtaccaa ctcaaccatt accaaatgcg 5700 
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agttttgata atttcaaact cacatgttct aacacaaaat ttgctgatga tttaaatcaa 

atgacaggct tcacaaagcc agcttcacga gagctatctg tcacattctt cccagacttg 

aatggcgatg tagtggctat tgactataga cactattcag cgagtttcaa gaaaggtgct 5880 

aaattactgc ataagccaat tgtttggcac attaaccagg ctacaaccaa gacaacgttc 5940 

aaaccaaaca cttggtgttt acgttgtctt tggagtacaa agccagtaga tacttcaaat 

-ccatttgaag ttctggcagt agaagacaca caaggaatgg acaatcttgc ttgtgaaagt 

caacaaccca cctctgaaga agtagtggaa aatcctacca tacagaagga agtcatagag 6120 

tgtgacgtga aaactaccga agttgtaggc aatgtcatac ttaaaccatc agatgaaggt 6180 

gttaaagtaa cacaagagtt aggtcatgag gatcttatgg ctgcttatgt ggaaaacaca 

agcattacca ttaagaaacc taatgagctt tcactagcct taggtttaaa aacaattgcc 

actcatggta ttgctgcaat taatagtgtt ccttggagta aaattttggc ttatgtcaaa 6360 

ccattcttag gacaagcagc aattacaaca tcaaattgcg ctaagagatt agcacaacgt 6420 

gtgtttaaca attatatgcc ttatgtgttt acattattgt tccaattgtg tacttttact 6480 

aaaagtacca attctagaat tagagcttca ctacctacaa ctattgctaa aaatagtgtt 6540 

aagagtgttg ctaaattatg tttggatgcc ggcattaatt atgtgaagtc acccaaattt 6600 

tctaaattgt tcacaatcgc tatgtggcta ttgttgttaa gtatttgctt aggttctcta 6660 

atctgtgtaa ctgctgcttt tggtgtactc ttatctaatt ttggtgctcc ttcttattgt 6720 

aatggcgtta gagaattgta tcttaattcg tctaacgtta ctactatgga tttctgtgaa 6780 

ggttcttttc cttgcagcat ttgtttaagt ggattagact cccttgattc ttatccagct 

cttgaaacca ttcaggtgac gatttcatcg tacaagctag acttgacaat tttaggtctg 

gccgctgagt gggttttggc atatatgttg ttcacaaaat tcttttattt attaggtctt 

tcagctataa tgcaggtgtt ctttggctat tttgctagtc atttcatcag caattcttgg 7020 

ctcatgtggt ttatcattag tattgtacaa atggcacccg tttctgcaat ggttaggatg 7080 

tacatcttct ttgcttcttt ctactacata tggaagagct atgttcatat catggatggt 7140 

tgcacctctt cgacttgcat gatgtgctat aagcgcaatc gtgccacacg cgttgagtgt 7200 

acaactattg ttaatggcat gaagagatct ttctatgtct atgcaaatgg aggccgtggc 7260 

ttctgcaaga ctcacaattg gaattgtctc aattgtgaca cattttgcac tggtagtaca 7320 

ttcattagtg atgaagttgc tcgtgatttg tcactccagt ttaaaagacc aatcaaccct 7380 

actgaccagt catcgtatat tgttgatagt gttgctgtga aaaatggcgc gcttcacctc 7440 

tactttgaca aggctggtca aaagacctat gagagacatc cgctctccca ttttgtcaat 7500 

ttagacaatt tgagagctaa caacactaaa ggttcactgc ctattaatgt catagttttt 7560 

gatggcaagt ccaaatgcga cgagtctgct tctaagtctg cttctgtgta ctacagtcag 7620 

ctgatgtgcc aacctattct gttgcttgac caagctcttg tatcagacgt tggagatagt 7680 

actgaagttt ccgttaagat gtttgatgct tatgtcgaca ccttttcagc aacttttagt 7740 
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gttcctatgg 


aaaaacttaa 


ggcacttgtt 


gctacagctc 


acagcgagtt 


agcaaagggt 


7800 


gtagctttag 


atggtgtcct 


ttctacattc 


gtgtcagctg 


cccgacaagg 


tgttgttgat 


7860 


accgatgttg 


acacaaagga 


tgttattgaa 


tgtctcaaac 


tttcacatca 


ctctgactta 


7920 


gaagtgacag 


gtgacagttg 


taacaatttc 


atgctcacct 


ataataaggt 


tgaaaacatg 


7980 


acgcccagag 


atcttggcgc 


atgtattgac 


tgtaatgcaa 


ggcatatcaa 


tgcccaagta 


8040 


gcaaaaagtc 


acaatgtttc 


actcatctgg 


aatgtaaaag 


actacatgtc 


tttatctgaa 


8100 


cagctgcgta 


aacaaattcg 


tagtgctgcc 


aagaagaaca 


acataccttt 


tagactaact 


8160 


tgtgctacaa 


ctagacaggt 


tgtcaatgtc 


ataactacta 


aaatctcact 


caagggtggt 


8220 


aagattgtta 


gtacttgttt 


taaacttatg 


cttaaggcca 


cattattgtg 


cgttcttgct 


8280 


gcattggttt 


gttatatcgt 


tatgccagta 


catacattgt 


caatccatga 


tggttacaca 


8340 


aatgaaatca 


ttggttacaa 


agccattcag 


gatggtgtca 


ctcgtgacat 


catttctact 


8400 


gatgattgtt 


ttgcaaataa 


acatgctggt 


tttgacgcat 


ggtttagcca 


gcgtggtggt 


8460 


tcatacaaaa 


atgacaaaag 


ctgccctgta 


gtagctgcta 


tcattacaag 


agagattggt 


8520 


ttcatagtgc 


ctggcttacc 


gggtactgtg 


ctgagagcaa 


tcaatggtga 


cttcttgcat 


8580 


tttctacctc 


gtgtttttag 


tgctgttggc 


aacatttgct 


acacaccttc 


caaactcatt 


8640 


gagtatagtg 


attttgctac 


ctctgcttgc 


gttcttgctg 


ctgagtgtac 


aatttttaag 


8700 


gatgctatgg 


gcaaacctgt 


gccatattgt 


tatgacacta 


atttgctaga 


gggttctatt 


8760 


tcttatagtg 


agcttcgtcc 


agacactcgt 


tatgtgctta 


tggatggttc 


catcatacag 


8820 


tttcctaaca 


cttacctgga 


gggttctgtt 


agagtagtaa 


caacttttga 


tgctgagtac 


8880 


tgtagacatg 


gtacatgcga 


aaggtcagaa 


gtaggtattt 


gcctatctac 


cagtggtaga 


8940 


tgggttctta 


ataatgagca 


ttacagagct 


ctatcaggag 


ttttctgtgg 


tgttgatgcg 


9000 


atgaatctca 


tagctaacat 


ctttactcct 


cttgtgcaac 


ctgtgggtgc 


tttagatgtg 


9060 


tctgcttcag 


tagtggctgg 


tggtattatt 


gccatattgg 


tgacttgtgc 


tgcctactac 


9120 


tttatgaaat 


tcagacgtgt 


ttttggtgag 


tacaaccatg 


ttgttgctgc 


taatgcactt 


9180 


ttgtttttga 


tgtctttcac 


tatactctgt 


ctggtaccag 


cttacagctt 


tctgccggga 


9240 


gtctactcag 


tcttttactt 


gtacttgaca 


ttctatttca 


ccaatgatgt 


ttcattcttg 


9300 


gctcaccttc 


aatggtttgc 


catgttttct 


cctattgtgc 


ctttttggat 


aacagcaatc 


9360 


tatgtattct 


gtatttctct 


gaagcactgc 


cattggttct 


ttaacaacta 


tcttaggaaa 


9420 


agagtcatgt 


ttaatggagt 


tacatttagt 


accttcgagg 


aggctgcttt 


gtgtaccttt 


9480 




dyydad uy Let 


CLLadddi ty 


cy Ldycyayct 








tataacaggt 


atcttgctct 


atataacaag 


tacaagtatt 


tcagtggagc 


cttagatact 


9600 


accagctatc 


gtgaagcagc 


ttgctgccac 


ttagcaaagg 


ctctaaatga 


ctttagcaac 


9660 


tcaggtgctg 


atgttctcta 


ccaaccacca 


cagacatcaa 


tcacttctgc 


tgttctgcag 


9720 


agtggtttta 


ggaaaatggc 


attcccgtca 


ggcaaagttg 
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acctgtggaa 


ctacaactct 


taatggattg 


tggttggatg acacagtata 


ctgtccaaga 


9840 


catgtcattt 


gcacagcaga 


agacatgctt 


aatcctaact atgaagatct 


gctcattcgc 


9900 


aaatccaacc 


atagctttct 


tgttcaggct 


ggcaatgttc 


aacttcgtgt 


tattggccat 


9960 


tctatgcaaa 


attgtctgct 


taggcttaaa 


gttgatactt 


ctaaccctaa 


gacacccaag 


10020 


tataaatttg 


tccgtatcca 


acctggtcaa 


acattttcag 


ttctagcatg 


ctacaatggt 


10080 


tcaccatctg 


gtgtttatca 


gtgtgccatg 


agacctaatc 


ataccattaa 


aggttctttc 


10140 


cttaatggat 


catgtggtag 


tgttggtttt 


aacattgatt 


atgattgcgt 


gtctttctgc 


10200 


tatatgcatc 


atatggagct 


tccaacagga 


gtacacgctg 


gtactgactt 


agaaggtaaa 


10260 


ttctatggtc 


catttgttga 


cagacaaact 


gcacaggctg 


caggtacaga 


cacaaccata 


10320 


acattaaatg 


ttttggcatg 


gctgtatgct 


gctgttatca 


atggtgatag 


gtggtttctt 


10380 


aatagattca 


ccactacttrt 


gaatgacttt 


aaccttgtgg 


caatgaagta 


caactatgaa 


10440 


cctttgacac 


aagatcatgt 


tgacatattg 


ggacctcttt 


ctgctcaaac 


aggaattgcc 


10500 


gtcttagata 


tgtgtgctgc 


tttgaaagag 


ctgctgcaga 


atggtatgaa 


tggtcgtact 


10560 


atccttggta 


gcactatttt 


agaagatgag 


tttacaccat 


ttgatgttgt 


tagacaatgc 


10620 


tctggtgtta 


ccttccaagg 


taagttcaag 


aaaattgtta agggcactca 


tcattggatg 


10680 


cttttaactt 


tcttgacatc 


actattgatt 


cttgttcaaa gtacacagtg 


gtcactgttt 


10740 


ttctttgttt 


acgagaatgc 


tttcttgcca 


tttactcttg gtattatggc 


aattgctgca 


10800 


tgtgctatgc 


tgcttgttaa 


gcataagcac 


gcattcttgt 


gcttgtttct 


gttaccttct 


10860 


cttgcaacag 


ttgcttactt 


taatatggtc 


tacatgcctg 


ctagctgggt 


gatgcgtatc 


10920 


atgacatggc 


ttgaattggc 


tgacactagc 


ttgtctggtt 


ataggcttaa 


ggattgtgtt 


10980 


atgtatgctt 


cagctttagt 


tttgcttatt 


ctcatgacag 


ctcgcactgt 


ttatgatgat 


11040 


gctgctagac 


gtgtttggac 


actgatgaat 


gtcattacac ttgtttacaa 


agtctactat 


11100 


ggtaatgctt 


tagatcaagc 


tatttccatg 


tgggccttag 


ttatttctgt 


aacctctaac 


11160 


tattctggtg 


tcgttacgac 


tatcatgttt 


ttagctagag 


ctatagtgtt 


tgtgtgtgtt 


11220 


gagtattacc 


cattgttatt 


tattactggc 


aacaccttac agtgtatcat 


gcttgtttat 


11280 


tgtttcttag 


gctattgttg 


ctgctgctac 


tttggccttt tctgtttact 


caaccgttac 


11340 


ttcaggctta 


ctcttggtgt 


ttatgactac 


ttggtctcta 


cacaagaatt 


taggtatatg 


11400 


aactcccagg 


ggcttttgcc 


tcctaagagt 


agtattgatg 


ctttcaagct 


taacattaag 


11460 


ttgttgggta 


ttggaggtaa 


accatgtatc 


aaggttgcta ctgtacagtc 


taaaatgtct 


11520 


gacgtaaagt 


gcacatctgt 


ggtactgctc 


tcggttcttc 


aacaacttag 


agtagagtca 


11580 


tcttctaaat 


tgtgggcaca 


atgtgtacaa 


ctccacaatg 


atattcttct 


tgcaaaagac 


11640 


acaactgaag 


ctttcgagaa 


gatggtttct 


cttttgtctg 


ttttgctatc 


catgcagggt 


11700 


gctgtagaca 


ttaataggtt 


gtgcgaggaa 


atgctcgata accgtgctac 


tcttcaggct 


11760 


attgcttcag 


aatttagttc 


tttaccatca 


tatgccgctt 


atgccactgc 


ccaggaggcc 


11820 
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tatgagcagg ctgtagctaa tggtgattct gaagtcgttc tcaaaaagtt aaagaaatct 11880 

ttgaatgtgg ctaaatctga gtttgaccgt gatgctgcca tgcaacgcaa gttggaaaag 11940 

atggcagatc aggctatgac ccaaatgtac aaacaggcaa gatctgagga caagagggca 12000 

aaagtaacta gtgctatgca aacaatgctc ttcactatgc ttaggaagct tgataatgat 12060 

gcacttaaca acattatcaa caatgcgcgt gatggttgtg ttccactcaa catcatacca 12120 

ttgactacag cagccaaact catggttgtt gtccctgatt atggtaccta caagaacact 12180 

tgtgatggta acacctttac atatgcatct gcactctggg aaatccagca agttgttgat 12240 

gcggatagca agattgttca acttagtgaa attaacatgg acaattcacc aaatttggct 12300 

tggcctctta ttgttacagc tctaagagcc aactcagctg ttaaactaca gaataatgaa 12360 

ctgagtccag tagcactacg acagatgtcc tgtgcggctg gtaccacaca aacagcttgt 12420 

actgatgaca atgcacttgc ctactataac aattcgaagg gaggtaggtt tgtgctggca 12480 

ttactatcag accaccaaga tctcaaatgg gctagattcc ctaagagtga tggtacaggt 12540 

acaatttaca cagaactgga accaccttgt aggtttgtta cagacacacc aaaagggcct 12600 

aaagtgaaat acttgtactt catcaaaggc ttaaacaacc taaatagagg tatggtgctg 12660 

ggcagtttag ctgctacagt acgtcttcag gctggaaatg ctacagaagt acctgccaat 12720 

tcaactgtgc tttccttctg tgcttttgca gtagaccctg ctaaagcata taaggattac 12780 

ctagcaagtg gaggacaacc aatcaccaac tgtgtgaaga tgttgtgtac acacactggt 12840 

acaggacagg caattactgt aacaccagaa gctaacatgg accaagagtc ctttggtggt 12900 

gcttcatgtt gtctgtattg tagatgccac attgaccatc caaatcctaa aggattctgt 12960 

gacttgaaag gtaagtacgt ccaaatacct accacttgtg ctaatgaccc agtgggtttt 13020 

acacttagaa acacagtctg taccgtctgc ggaatgtgga aaggttatgg ctgtagttgt 13080 

gaccaactcc gcgaaccctt gatgcagtct gcggatgcat caacgttttt aaacgggttt 13140 

gcggtgtaag tgcagcccgt cttacaccgt gcggcacagg cactagtact gatgtcgtct 13200 

acagggcttt tgatatttac aacgaaaaag ttgctggttt tgcaaagttc ctaaaaacta 13260 

attgctgtcg cttccaggag aaggatgagg aaggcaattt attagactct tactttgtag 13320 

ttaagaggca tactatgtct aactaccaac atgaagagac tatttataac ttggttaaag 13380 

attgtccagc ggttgctgtc catgactttt tcaagtttag agtagatggt gacatggtac 13440 

cacatatatc acgtcagcgt ctaactaaat acacaatggc tgatttagtc tatgctctac 13500 

gtcattttga tgagggtaat tgtgatacat taaaagaaat actcgtcaca tacaattgct 13560 

gtgatgatga ttatttcaat aagaaggatt ggtatgactt cgtagagaat cctgacatct 13620 

tacgcgtata tgctaactta ggtgagcgtg tacgccaatc attattaaag actgtacaat 13680 

tctgcgatgc tatgcgtgat gcaggcattg taggcgtact gacattagat aatcaggatc 13740 

ttaatgggaa ctggtacgat ttcggtgatt tcgtacaagt agcaccaggc tgcggagttc 13800 

ctattgtgga ttcatattac tcattgctga tgcccatcct cactttgact agggcattgg 13860 
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ctgctgagtc ccatatggat gctgatctcg caaaaccact tattaagtgg gatttgctga 13920 

aatatgattt tacggaagag agactttgtc tcttcgaccg ttattttaaa tattgggacc 13980 

agacatacca tcccaattgt attaactgtt tggatgatag gtgtatcctt cattgtgcaa 14040 

actttaatgt gttattttct actgtgtttc cacctacaag ttttggacca ctagtaagaa 14100 

aaatatttgt agatggtgtt ccttttgttg tttcaactgg ataccatttt cgtgagttag 14160 

gagtcgtaca taatcaggat gtaaacttac atagctcgcg tctcagtttc aaggaacttt 14220 

tagtgtatgc tgctgatcca gctatgcatg cagcttctgg caatttattg ctagataaac 14280 

gcactacatg cttttcagta gctgcactaa caaacaatgt tgcttttcaa actgtcaaac 14340 

ccggtaattt taataaagac ttttatgact ttgctgtgtc taaaggtttc tttaaggaag 14400 

gaagttctgt tgaactaaaa cacttcttct ttgctcagga tggcaacgct gctatcagtg 14460 

attatgacta ttatcgttat aatctgccaa caatgtgtga tatcagacaa ctcctattcg 14520 

tagttgaagt tgttgataaa tactttgatt gttacgatgg tggctgtatt aatgccaacc 14580 

aagtaatcgt taacaatctg gataaatcag ctggtttccc atttaataaa tggggtaagg 14640 

ctagacttta ttatgactca atgagttatg aggatcaaga tgcacttttc gcgtatacta 14700 

agcgtaatgt catccctact ataactcaaa tgaatcttaa gtatgccatt agtgcaaaga 14760 

atagagctcg caccgtagct ggtgtctcta tctgtagtac tatgacaaat agacagtttc 14820 

atcagaaatt attgaagtca atagccgcca ctagaggagc tactgtggta attggaacaa 14880 

gcaagtttta cggtggctgg cataatatgt taaaaactgt ttacagtgat gtagaaactc 14940 

cacaccttat gggttgggat tatccaaaat gtgacagagc catgcctaac atgcttagga 15000 

taatggcctc tcttgttctt gctcgcaaac ataacacttg ctgtaactta tcacaccgtt 15060 

tctacaggtt agctaacgag tgtgcgcaag tattaagtga gatggtcatg tgtggcggct 15120 

cactatatgt taaaccaggt ggaacatcat ccggtgatgc tacaactgct tatgctaata 15180 

gtgtctttaa catttgtcaa gctgttacag ccaatgtaaa tgcacttctt tcaactgatg 15240 

gtaataagat agctgacaag tatgtccgca atctacaaca caggctctat gagtgtctct 15300 

atagaaatag ggatgttgat catgaattcg tggatgagtt ttacgcttac ctgcgtaaac 15360 

atttctccat gatgattctt tctgatgatg ccgttgtgtg ctataacagt aactatgcgg 15420 

ctcaaggttt agtagctagc attaagaact ttaaggcagt tctttattat caaaataatg 15480 

tgttcatgtc tgaggcaaaa tgttggactg agactgacct tactaaagga cctcacgaat 15540 

tttgctcaca gcatacaatg ctagttaaac aaggagatga ttacgtgtac ctgccttacc 15600 

cagatccatc aagaatatta ggcgcaggct gttttgtcga tgatattgtc aaaacagatg 15660 

gtacacttat gattgaaagg ttcgtgtcac tggctattga tgcttaccca cttacaaaac 15720 

atcctaatca ggagtatgct gatgtctttc acttgtattt acaatacatt agaaagttac 15780 

atgatgagct tactggccac atgttggaca tgtattccgt aatgctaact aatgataaca 15840 

cctcacggta ctgggaacct gagttttatg aggctatgta cacaccacat acagtcttgc 15900 
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aggctgtagg tgcttgtgta ttgtgcaatt cacagacttc acttcgttgc ggtgcctgta 15960 

ttaggagacc attcctatgt tgcaagtgct gctatgacca tgtcatttca acatcacaca 16020 

aattagtgtt gtctgttaat ccctatgttt gcaatgcccc aggttgtgat gtcactgatg 16080 

tgacacaact gtatctagga ggtatgagct attattgcaa gtcacataag cctcccatta 16140 

gttttccatt atgtgctaat ggtcaggttt ttggtttata caaaaacaca tgtgtaggca 16200 

gtgacaatgt cactgacttc aatgcgatag caacatgtga ttggactaat gctggcgatt 16260 

acatacttgc caacacttgt actgagagac tcaagctttt cgcagcagaa acgctcaaag 16320 

ccactgagga aacatttaag ctgtcatatg gtattgccac tgtacgcgaa gtactctctg 16380 

acagagaatt gcatctttca tgggaggttg gaaaacctag accaccattg aacagaaact 16440 

atgtctttac tggttaccgt gtaactaaaa atagtaaagt acagattgga gagtacacct 16500 

ttgaaaaagg tgactatggt gatgctgttg tgtacagagg tactacgaca tacaagttga 16560 

atgttggtga ttactttgtg ttgacatxtc acactgtaat gccacttagt gcacctactc 16620 

tagtgccaca agagcactat gtgagaatta ctggcttgta cccaacactc aacatctcag 16680 

atgagttttc tagcaatgtt gcaaattatc aaaaggtcgg catgcaaaag tactctacac 16740 

tccaaggacc acctggtact ggtaagagtc attttgccat cggacttgct ctctattacc 16800 

catctgctcg catagtgtat acggcatgct ctcatgcagc tgttgatgcc ctatgtgaaa 16860 

aggcattaaa atatttgccc atagataaat gtagtagaat catacctgcg cgtgcgcgcg 16920 

tagagtgttt tgataaattc aaagtgaatt caacactaga acagtatgtt ttctgcactg 16980 

taaatgcatt gccagaaaca actgctgaca ttgtagtctt tgatgaaatc tctatggcta 17040 

ctaattatga cttgagtgtt gtcaatgcta gacttcgtgc aaaacactac gtctatattg 17100 

gcgatcctgc tcaattacca gccccccgca cattgctgac taaaggcaca ctagaaccag 17160 

aatattttaa ttcagtgtgc agacttatga aaacaatagg tccagacatg ttccttggaa 17220 

cttgtcgccg ttgtcctgct gaaattgttg acactgtgag tgctttagtt tatgacaata 17280 

agctaaaagc acacaaggat aagtcagctc aatgcttcaa aatgttctac aaaggtgtta 17340 

ttacacatga tgtttcatct gcaatcaaca gacctcaaat aggcgttgta agagaatttc 17400 

ttacacgcaa tcctgcttgg agaaaagctg tttttatctc accttataat tcacagaacg 17460 

ctgtagcttc aaaaatctta ggattgccta cgcagactgt tgattcatca cagggttctg 17520 

aatatgacta tgtcatattc acacaaacta ctgaaacagc acactcttgt aatgtcaacc 17580 

gcttcaatgt ggctatcaca agggcaaaaa ttggcatttt gtgcataatg tctgatagag 17640 

atctttatga caaactgcaa tttacaagtc tagaaatacc acgtcgcaat gtggctacat 17700 

tacaagcaga aaatgtaact ggacttttta aggactgtag taagatcatt actggtcttc 17760 

atcctacaca ggcacctaca cacctcagcg ttgatataaa gttcaagact gaaggattat 17820 

gtgttgacat accaggcata ccaaaggaca tgacctaccg tagactcatc tctatgatgg 17880 

gtttcaaaat gaattaccaa gtcaatggtt accctaatat gtttatcacc cgcgaagaag 17940 
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ctattcgtca 


cgttcgtgcg 


tggattggct 


ttgatgtaga 


gggctgtcat 


gcaactagag 


18000 


atgctgtggg 


tactaaccta 


cctctccagc 


taggattttc 


tacaggtgtt 


aacttagtag 


18060 


ctgtaccgac 


tggttatgtt 


gacactgaaa 


ataacacaga 


attcaccaga 


gttaatgcaa 


18120 


aacctccacc 


aggtgaccag 


tttaaacatc 


ttataccact 


catgtataaa 


ggcttgccct 


18180 


ggaatgtagt 


gcgtattaag 


atagtacaaa 


tgctcagtga 


tacactgaaa 


ggattgtcag 


18240 


acagagtcgt 


gttcgtcctt 


tgggcgcatg 


gctttgagct 


tacatcaatg 


aagtactttg 


18300 


tcaagattgg 


acctgaaaga 


acgtgttgtc 


tgtgtgacaa 


acgtgcaact 


tgcttttcta 


18360 


cttcatcaga 


tacttatgcc 


tgctggaatc 


attctgtggg 


ttttgactat 


gtctataacc 


18420 


catttatgat 


tgatgttcag 


cagtggggct 


ttacgggtaa 


ccttcagagt 


aaccatgacc 


18480 


aacattgcca 


ggtacatgga 


aatgcacatg 


tggctagttg 


tgatgctatc 


atgactagat 


18540 


gtttagcagt 


ccatgagtgc 


tttgttaagc 


gcgttgattg 


gtctgttgaa 


taccctatta 


18600 


taggagatga 


actgagggtt 


aattctgctt 


gcagaaaagt 


acaacacatg 


gttgtgaagt 


18660 


ctgcattgct 


tgctgataag 


tttccagttc 


ttcatgacat 


tggaaatcca 


aaggctatca 


18720 


agtgtgtgcc 


tcaggctgaa 


gtagaatgga 


agttctacga 


tgctcagcca 


tgtagtgaca 


18780 


aagcttacaa 


aatagaggaa 


ctcttctatt 


cttatgctac 


acatcacgat 


aaattcactg 


18840 


atggtgtttg 


tttgttttgg 


aattgtaacg 


ttgatcgtta 


cccagccaat 


gcaattgtgt 


18900 


gtaggtttga 


cacaagagtc 


ttgtcaaact 


tgaacttacc 


aggctgtgat 


ggtggtagtt 


18960 


tgtatgtgaa 


taagcatgca 


ttccacactc 


cagctttcga 


taaaagtgca 


tttactaatt 


19020 


taaagcaatt 


gcctttcttt 


tactattctg 


atagtccttg 


tgagtctcat 


ggcaaacaag 


19080 


tagtgtcgga 


tattgattat 


gttccactca 


aatctgctac 


gtgtattaca 


cgatgcaatt 


19140 


taggtggtgc 


tgtttgcaga 


caccatgcaa 


atgagtaccg 


acagtacttg 


gatgcatata 


19200 


atatgatgat 


ttctgctgga 


tttagcctat 


ggatttacaa 


acaatttgat 


acttataacc 


19260 


tgtggaatac 


atttaccagg 


ttacagagtt 


tagaaaatgt 


ggcttataat 


gttgttaata 


19320 


aaggacactt 


tgatggacac 


gccggcgaag 


cacctgtttc 


catcattaat 


aatgctgttt 


19380 


acacaaaggt 


agatggtatt 


gatgtggaga 


tctttgaaaa 


taagacaaca 


cttcctgtta 


19440 


atgttgcatt 


tgagctttgg 


gctaagcgta 


acattaaacc 


agtgccagag 


attaagatac 


19500 


tcaataattt 


gggtgttgat 


atcgctgcta 


atactgtaat 


ctgggactac 


aaaagagaag 


19560 


ccccagcaca 


tgtatctaca 


ataggtgtct 


gcacaatgac 


tgacattgcc 


aagaaaccta 


19620 


ctgagagtgc 


ttgttcttca 


cttactgtct 


tgtttgatgg 


tagagtggaa 


ggacaggtag 


19680 


acctttttag 


aaacgcccgt 


aatggtgttt 


taataacaga 


aggttcagtc 


aaaggtctaa 


19740 


caccttcaaa 


gggaccagca 


caagctagcg 


tcaatggagt 


cacattaatt 


ggagaatcag 


19800 


taaaaacaca 


gtttaactac 


tttaagaaag 


tagacggcat 


tattcaacag 


ttgcctgaaa 


19860 


cctactttac 


tcagagcaga 


gacttagagg 


attttaagcc 


cagatcacaa 


atggaaactg 


19920 


actttctcga 


gctcgctatg 


gatgaattca 


tacagcgata 


taagctcgag 


ggctatgcct 


19980 
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tcgaacacat 

taggcttagc 

acagcacagt 

gttctgtgat 

cagtgatttc 

ggtgtaagga 

aaccaggtgt 

accttcagaa 

agtatactca 

gagttattca 

gacaatggtt 

acgcagattc 

ttattattag 

aagaagggtt 

ctatagctgt 

atttctcatg 

taattggggc 

ctaactacat 

acatgagcaa 

aaatcaatga 

acagagttgt 



cgtttatgga 
caagcgctca 
gaaaaattac 
tgatctttta 
aaaagtggtc 
tggacatgtt 
tgcgatgcct 
ttatggtgaa 
actgtgtcaa 
ctttggtgct 
gccaactggc 
tactttaatt 
cgatatgtat 
tttcacttat 
aaagataaca 
gtggacagct 
taactatctt 
tttctggagg 
atttcctctt 
tatgatttat 
ggtttcaagt 



gatttcagtc 
caagattcac 
ttcataacag 
cttgatgact 
aaggttacaa 
gaaaccttct 
aacttgtaca 
aatgctgtta 
tacttaaata 
ggctctgata 
acactacttg 
ggagactgtg 
gaccctagga 
ctgtgtggat 
gagcattctt 
tttgttacaa 
ggcaagccga 
aacacaaatc 
aaattaagag 
tctcttctgg 
gatattcttg 



S226CAS111. 
atggacaact 
cacttaaatt 
atgcgcaaac 
ttgtcgagat 
ttgactatgc 
acccaaaact 
agatgcaaag 
taccaaaagg 
cacttacttt 
aaggagttgc 
tcgattcaga 
caacagtaca 
ccaaacatgt 
ttataaagca 
ggaatgctga 
atgtaaatgc 
aggaacaaat 
ctatccagtt 
gaactgctgt 
aaaaaggtag 
ttaacaacta 



ST25 

tggcggtctt 
agaggatttt 
aggttcatca 
aataaagtca 
tgaaatttca 
acaagcaagt 
aatgcttctt 
aataatgatg 
agctgtaccc 
accaggtaca 
tcttaatgac 
tacggctaat 
gacaaaagag 
aaaactagcc 
cctttacaag 
at cat cat eg 
tgatggctat 
gtcttcctat 
aatgtctctt 
gcttatcatt 



catttaatga 
atccctatgg 
aaatgtgtgt 
caagatttgt 
ttcatgcttt 
caagcgtggc 
gaaaagtgtg 
aatgtcgcaa 
tacaacatga 
gctgtgctca 
ttcgtctccg 
aaatgggacc 
aatgactcta 
ctgggtggtt 
ettatgggee 
gaagcatttt 
accatgeatg 
tcactctttg 
aaggagaatc 
agagaaaaca 



<210> 32<211> 297<212> DNA<213> CORONAVIRUS<400> 32 
atggacccca atcaaaccaa cgtagtgccc cccgcattac atttggtgga cccacagatt 

caactgacaa taaccagaat ggaggacgea atggggcaag gecaaaacag cgccgacccc 

aaggtttacc caataatact gcgtcttggt tcacagctct cactcagcat ggcaaggagg 

aacttagatt ccctcgaggc cagggegtte caatcaacac caatagtggt ccagatgacc 

aaattggcta ctaccgaaga gctacccgac gagttcgtgg tggtgacggc aaaatga 

<210> 33<211> 98<212> PRT<213> CORONAVIRUS<400> 33 

Met Asp Pro Asn Gin Thr Asn val val Pro Pro Ala Leu His Leu val 
15 10 15 

Asp Pro Gin lie Gin Leu Thr lie Thr Arg Met Glu Asp Ala Met Gly 
20 25 30 

Gin Gly Gin Asn Ser Ala Asp Pro Lys Val Tyr Pro lie lie Leu Arg 
35 ad 45 



20040 
20100 
20160 
20220 
20280 
20340 
20400 
20460 
20520 
20580 
20640 
20700 
20760 
20820 
20880 
20940 
21000 
21060 
21120 
21180 
21221 

60 
120 
180 
240 
297 
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Leu Gly Ser Gin Leu Ser Leu Ser Met Ala Arg Arg Asn Leu Asp Ser 
50 55 60 

Leu Glu Ala Arg Ala Phe Gin Ser Thr Pro lie Val Val Gin Met Thr 
65 70 75 80 

Lys Leu Ala Thr Thr Glu Glu Leu Pro Asp Glu Phe val Val Val Thr 
85 90 95 

Ala Lys 



<210> 34<211> 213<212> DNA<213> CORONAVIRUS<400> 34 

atgctgccac cgtgctacaa cttcctcaag gaacaacatt gccaaaaggc ttctacgcag 60 

agggaagcag aggcggcagt caagcctctt ctcgctcctc atcacgtagt cgcggtaatt 120 

caagaaattc aactcctggc agcagtaggg gaaattctcc tgctcgaatg gctagcggag 180 

gtggtgaaac tgccctcgcg ctattgctgc tag 213 

<210> 35<211> 70<212> PRT<213> CORONAVIRUS<400> 35 

Met Leu Pro Pro Cys Tyr Asn Phe Leu Lys Glu Gin His Cys Gin Lys 
15 10 15 

Ala Ser Thr Gin Arg Glu Ala Glu Ala Ala val Lys Pro Leu Leu Ala 
20 25 30 

Pro His His val val Ala Val lie Gin Glu lie Gin Leu Leu Ala Ala 
35 40 45 

Val Gly Glu lie Leu Leu Leu Glu Trp Leu Ala Glu val val Lys Leu 
50 55 60 

Pro ser Arg Tyr cys cys 
65 70 

<210> 36<211> 1377<212> DNA<213> CORONAVIRUS<220><221> CDS<222> 
(67)_(1335)<223> 

<400> 36 

atgaaggtca ccaaactgct gcatttagag acgtacttgt tgttttaaat aaacgaacaa 60 

108 



attaaa atg tct gat aat gga ccc caa tea aac caa cgt agt gec ccc 
Met ser Asp Asn Gly Pro Gin ser Asn Gin Arg ser Ala Pro 
1 5 10 

cgc att aca ttt ggt gga ccc aca gat tea act gac aat aac cag aat 
Arg lie Thr Phe Gly Gly Pro Thr Asp Ser Thr Asp Asn Asn Gin Asn 
15 20 25 30 

gga gga cgc aat gqg gca agg cca aaa cag cgc cga ccc caa ggt tta 
Gly Gly Arg Asn Gly Ala Arg Pro Lys Gin Arg Arg Pro Gin Gly Leu 
35 40 45 
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rrc aat aat act gcg tct tgg ttc aca get etc act cag cat ggc aag 
Prl Sn aS Thr All ser Trp Phe Thr Ala Leu Thr Gin His cTy Lys 
50 55 DU 

its g?S 2 SS » s 25 w as 95 «H SS SS a^S as ss 

65 70 /:> 

ant- aat cca aat qac caa att ggc tac tac cga aga get acc cga cga 
Iff 85 Sp Sp Gin He GTy Tyr Tyr Arg Arg Ala Thr Arg Arg 
80 85 yu 

att cat qqt gat gac ggc aaa atg aaa gag etc age ccc aga tgg tac 
?al Arg G?y 8fJ Asp G?y Lys Met Lys Glu Leu ser Pro Arg Trp Tyr 
95 100 1° ■> 

^^.^ c1:a aaa ac t qqc cca gaa get tea ctt ccc tac ggc get 

Phe ry? Tyr lS G?y Thr §?5 Pro llu Xla Ser Leu Pro Tyr fy Ala 
115 120 

aaf aaa OM acc ate ata tag att gca act gag gga gec ttg aat aca 
tyl Glu S?y lie Val Trp Sal Ala Thr Glu G^y Ala Leu Asn Thr 
130 135 140 

ccc aaa gac cac att ggc acc cgc aat cct aat aac aat get gee acc 
Pro Lys Asp His lie Giy Thr Arg Asn Pro Asn Asn Asn Ala Ala Thr 
" ' ~ 150 



145 



nt-a rta caa ctt cct caa gga aca aca ttg cca aaa ggc ttc tac gca 
5a? lS Gin S£ Pro Gin cTy Thr Thr Leu Pro Lys GTy Phe Tyr Ala 
160 165 170 

aaa aaa aac aqa ggc ggc agt caa gec tct tct cgc tec tea tea cgt 
H?2 §?? llr Irg G?y G?y Ser Gin Ala ser ser Arg ser ser ser Arg 
175 ~ 180 185 iyu 

aat cac aat aat tea aga aat tea act cct ggc age agt agg gga aat 
Iff A?g A?n llr Arg Asn Ser Thr Pro Gly ser ser Arg fy Asn 
195 200 ^^-> 

is ss lu sb ss si ss a; a? as as «? *s as bs a 

210 215 

tta eta eta qac aga ttg aac cag ctt gag age aaa gtt tct got aaa 
llu Leu Leu Asp Arg Leu Asn Gin Leu Glu Ser Lys val Ser G Ty Lys 
230 235 



225 



aac caa caa caa caa ggc caa act gtc act aag aaa tct get get gag 
C$y Gin Gin Gin Gin Giy Gin Thr val Thr Lys Lys Ser Ala Ala Glu 
240 245 250 

nr , aa-, -,aa cct cac caa aaa cqt act gee aca aaa cag tac aac 
Ala Itr lys 51 Pro Arg Gin Lys Arg Thr Xla Thr Lys Gin Tyr Asn 
255 260 2o 5 

gtc act caa gca ttt ggg aga cgt got cca gaa caa acc caa gga aat 
val Thr Gin Ala Phe Gly Arg Arg Gly Pro Glu Gin Thr Gin Gly Asn 
275 280 

ttc aaa qac caa gac eta ate aga caa gga act gat tac aaa cat tgg 
Phe G?y Sp Gin Asp Leu He Arg Gin G?y Thr Asp Tyr Lys His Trp 
290 295 

rca raa att aca caa ttt act cca agt gee tct gca ttc ttt gga atg 
Pro §ln lie Alt §ln Phe Ala Pro sir Ala ser Ala Phe Phe G?y Met 
305 310 315 
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300 



348 



396 



444 



492 



540 



588 



636 



684 



732 



780 



828 



876 



924 



972 



1020 



1068 



1116 



1164 
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tea cgc att ggc atg gaa gtc aca cct teg gga aca tgg ctg act tat 
Ser Arg He Gly Met Glu val Thr Pro Ser Gly Thr Trp Leu Thr Tyr 
320 ' 325 330 

cat qqa gec att aaa ttq gat gac aaa gat cca caa ttc aaa gac aac 
His Gly Ala He Lys Leu Asp Asp Lys Asp Pro Gin Phe Lys Asp Asn 
335 340 345 350 

gtc ata ctg ctg aac aag cac att gac gca tac aaa aca ttc cca cca 
val lie Leu Leu Asn Lys His lie Asp Ala Tyr Lys Thr Phe Pro Pro 
355 360 365 

aca gag cct aaa aag gac aaa aag aaa aag act gat gaa get cag cct 1212 
Thr Glu Pro Lys Lys Asp Lys Lys Lys Lys Thr Asp Glu Ala Gin Pro 
370 375 380 

ttg ccg cag aga caa aag aag cag ccc act gtg act ctt ctt cct gcg 1260 
Leu Pro Gin Arg Gin Lys Lys Gin Pro Thr Val Thr Leu Leu Pro Ala 
385 390 395 

get gac atg gat gat ttc tec aga caa ctt caa aat tec atg agt gga 1308 
Ala Asp Met Asp Asp Phe Ser Arg Gin Leu Gin Asn Ser Met Ser Gly 
400 405 410 

get tct get gat tea act cag gca taa acactcatga tgaccacaca 1355 
Ala Ser Ala Asp Ser Thr Gin Ala 
415 420 

aggcagatgg gctatgtaaa eg 13 77 

<210> 37<211> 422<212> PRT<213> CORONAVIRUS<400> 37 

Met Ser Asp Asn Gly Pro Gin ser Asn Gin Arg ser Ala Pro Arg lie 
15 10 15 

Thr Phe Gly Gly Pro Thr Asp Ser Thr Asp Asn Asn Gin Asn Gly Gly 
20 25 30 

Arg Asn Gly Ala Arg Pro Lys Gin Arg Arg pro Gin Gly Leu Pro Asn 
35 40 45 

Asn Thr Ala Ser Trp Phe Thr Ala Leu Thr Gin His Gly Lys Glu Glu 
50 55 60 

Leu Arg Phe Pro Arg Gly Gin Gly Val Pro lie Asn Thr Asn Ser Gly 
65 70 75 80 

Pro Asp Asp Gin lie Gly Tyr Tyr Arg Arg Ala Thr Arg Arg val Arg 
85 90 95 

Gly Gly Asp Gly Lys Met Lys Glu Leu Ser Pro Arg Trp Tyr Phe Tyr 
100 105 110 

Tyr Leu Gly Thr Gly Pro Glu Ala Ser Leu Pro Tyr Gly Ala Asn Lys 
115 120 125 

Glu Gly lie val Trp Val Ala Thr Glu Gly Ala Leu Asn Thr Pro Lys 
130 135 140 
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Asp His lie Gly Thr Arg Asn Pro Asn Asn Asn Ala Ala Thr val Leu 



145 



150 



160 



Gin Leu Pro Gin Gly Thr Thr Leu Pro Lys Gly Phe Tyr Ala Glu Gly 
165 170 175 

ser Arg Gly Gljj Ser Gin Ala ser Ser Arg Ser Ser Ser Arg ser Arg 

Gly Asn Ser Arg Asn Ser Thr Pro Gly ser ser Arg Gly Asn ser Pro 
195 " 200 205 



Ala Arg Met Ala Ser Gly Gly Gly Glu Thr Ala Leu Ala Leu Leu Leu 
210 215 220 



Leu Asp Arg Leu Asn Gin Leu Glu Ser Lys val ser Gly Lys Gly Gin 
225 230 235 240 

Gin Gin Gin Gly Gin Thr val Thr Lys Lys Ser Ala Ala Glu Ala ser 
245 250 255 

Lys Lys Pro Arg Gin Lys Arg Thr Ala Thr Lys Gin Tyr Asn val Thr 
260 265 270 

Gin Ala Phe Gly Arg Arg Gly Pro Glu Gin Thr Gin Gly Asn Phe Gly 
275 280 285 

Asp Gin Asp Leu lie Arg Gin Gly Thr Asp Tyr Lys His Trp Pro Gin 
290 295 300 



lie Ala Gin Phe Ala Pro Ser Ala Ser Ala Phe Phe Gly Met ser Arg 
305 310 315 320 



310 



lie Gly Met Glu val Thr Pro ser Gly Thr Trp Leu Thr Tyr His Gly 
325 330 335 

Ala lie Lys Leu Asp Asp Lys Asp Pro Gin Phe Lys Asp Asn val lie 
340 345 350 

Leu Leu Asn Lys His He Asp Ala Tyr Lys Thr Phe Pro Pro Thr Glu 
355 360 365 

Pro Lys Lys Asp Lys Lys Lys Lys Thr Asp Glu Ala Gin Pro Leu Pro 
370 375 380 

Gin Arg Gin Lys Lys Gin Pro Thr Val Thr Leu Leu Pro Ala Ala Asp 
385 390 395 400 



Met Asp Asp Phe ser Arg Gin Leu Gin Asn ser Met Ser Gly Ala Ser 
405 410 415 
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Ala Asp Ser Thr Gin Ala 
420 



<210> 38<211> 1377<212> DNA<213> CORONAVIRU5<400> 
atgaaggtca ccaaactgct gcatttagag acgtacttgt tgttttaaat 


38 

aaacgaacaa 


60 


attaaaatgt 


ctgataatgg 


accccaatca 


aaccaacgta 


gtgccccccg 


cattacattt 


120 


ggtggaccca 


cagattcaac 


tgacaataac 


cagaatggag 


gacgcaatgg 


ggcaaggcca 


180 


aaacagcgcc 


gaccccaagg 


tttacccaat 


aatactgcgt 


cttggttcac 


agctctcact 


240 


cagcatggca 


aggaggaact 


tagattccct 


cgaggccagg 


gcgttccaat 


caacaccaat 


300 


agtggtccag 


atgaccaaat 


tggctactac 


cgaagagcta 


cccgacgagt 


tcgtggtggt 


360 


gacggcaaaa 


tgaaagagct 


cagccccaga 


tggtacttct 


attacctagg 


aactggccca 


420 


gaagcttcac 


ttccctacgg 


cgctaacaaa 


gaaggcatcg 


tatgggttgc 


aactgaggga 


480 


gccttgaata 


cacccaaaga 


ccacattggc 


acccgcaatc 


ctaataacaa 


tgctgccacc 


540 


gtgctacaac 


ttcctcaagg 


aacaacattg 


ccaaaaggct 


tctacgcaga 


gggaagcaga 


600 


ggcggcagtc 


aagcctcttc 


tcgctcctca 


tcacgtagtc 


gcggtaattc 


aagaaattca 


660 


actcctggca 


gcagtagggg 


aaattctcct 


gctcgaatgg 


ctagcggagg 


tggtgaaact 


720 


gccctcgcgc 


tattgctgct 


agacagattg 


aaccagcttg 


agagcaaagt 


ttctggtaaa 


780 


ggccaacaac 


aacaaggcca 


aactgtcact 


aagaaatctg 


ctgctgaggc 


atctaaaaag 


840 


cctcgccaaa 


aacgtactgc 


cacaaaacag 


tacaacgtca 


ctcaagcatt 


tgggagacgt 


900 


ggtccagaac 


aaacccaagg 


aaatttcggg 


gaccaagacc 


taatcagaca 


aggaactgat 


960 


tacaaacatt 


ggccgcaaat 


tgcacaattt 


gctccaagtg 


cctctgcatt 


ctttggaatg 


1020 


tcacgcattg 


gcatggaagt 


cacaccttcg 


ggaacatggc 


tgacttatca 


tggagccatt 


1080 


aaattggatg 


acaaagatcc 


acaattcaaa 


gacaacgtca 


tactgctgaa 


caagcacatt 


1140 


gacgcataca 


aaacattccc 


accaacagag 


cctaaaaagg 


acaaaaagaa 


aaagactgat 


1200 


gaagctcagc 


ctttgccgca 


gagacaaaag 


aagcagccca 


ctgtgactct 


tcttcctgcg 


1260 


gctgacatgg 


atgatttctc 


cagacaactt 


caaaattcca 


tgagtggagc 


ttctgctgat 




tcaactcagg 


cataaacact 


catgatgacc 


acacaaggca 


gatgggctat 


gtaaacg 


1377 


<210> 39<211> 204<212> DNA<213> CORONAVIRUS<400> 39 
atattaggtt tttacctacc caggaaaagc caaccaacct cgatctcttg tagatctgtt 


60 


ctctaaacga 


actttaaaat 


ctgtgtagct 


gtcgctcggc 


tgcatgccta 


gtgcacctac 


120 


gcagtataaa 


caataataaa 


ttttactgtc 


gttgacaaga 


aacgagtaac 


tcgtccctct 


180 


tctgcagact 


gcttacggtt 


tcgt 








204 


<210> 40<211> 809<212> DNA<213> CORONAVIRUS<400> 40 
actcaagcat ttgggagacg tggtccagaa caaacccaag gaaatttcgg ggaccaagac 


60 


ctaatcagac aaggaactga ttacaaacat tggccgcaaa ttgcacaatt tgctccaagt 


120 
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gcctctgcat tctttggaat 


gtcacgcatt 
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ggcatggaag tcacaccttc 


gggaacatgg 


180 


ctgacttatc atggagccat 


taaattggat 


gacaaagatc 


cacaattcaa 


agacaacgtc 


240 


atactgctga acaagcacat 


tgacgcatac 


aaaacattcc 


caccaacaga 


gcctaaaaag 


300 


gacaaaaaga aaaagactga 


tgaagctcag 


cctttgccgc 


agagacaaaa 


gaagcagccc 


360 


actgtgactc rtcttcctgc 


ggctgacatg 


gatgatttct 


ccagacaact 


tcaaaattcc 


420 


atgagtggag cttctgctga 


ttcaactcag 


gcataaacac 


tcatgatgac 


cacacaaggc 


480 


agatgggcta tgtaaacgtt 


ttcgcaattc 


cgtttacgat 


acatagtcta 


ctcttgtgca 


540 


gaatgaattc tcgtaactaa 


acagcacaag 


taggtttagt 


taactttaat 


ctcacatagc 


600 


aatctttaat caatgtgtaa 


cattagggag 


gacttgaaag 


agccaccaca ttttcatcga 


660 


ggccacgcgg agtacgatcg 


agggtacagt 


gaataatgct agggagagct gcctatatgg 


720 


aagagcccta atgtgtaaaa 


ttaattttag 


tagtgctatc 


cccatgtgat 


tttaatagct 


780 


tcttaggaga atgacaaaaa 


aaaaaaaaa 








809 



<210> 41<211> 448<212> DNA<213> CORONAVIRUS<400> 41 

aatgaacaca tagggctgtt caagctgggg cagtacgcct ttttccagct ctactagacc 60 



acaagtgcca tttttgaggt gttcacgtgc ctccgatagg gcctcttcca 


cagagtcccc 


120 


gaagccacgc actagcacgt ctctaacctg aaggacaggc aaactgagtt 




180 


tttctcgttg 


acaccaagaa 


caaggctctc 


catcttacct ttcggtcaca 


cccggacgaa 


240 


acctaggtat gctgatgatc gactgcaaca cggacgaaac cgtaagcagt 


ctgcagaaga 


300 


gggacgagtt actcgtttct tgtcaacgac agtaaaattt attattgttt 


atactgcgta 


360 


ggtgcactag gcatgcagcc gagcgacagc tacacagatt ttaaagttcg 


tttagagaac 


420 


agatctacaa gagatcgagg 


ttggttgg 






448 


<210> 42<211> 2033<212> DNA<213> CORONAVIRUS<400> 
atacctaggt ttcgtccggg tgtgaccgaa aggtaagatg gagagccttg 


42 

ttcttggtgt 


60 


caacgagaaa 


acacacgtcc 


aactcagttt 


gcctgtcctt caggttagag 


acgtgctagt 


120 


gcgtggcttc 


ggggactctg 


tggaagaggc 


cctatcggag gcacgtgaac 


acctcaaaaa 


180 


tggcacttgt 


ggtctagtag 


agctggaaaa 


aggcgtactg ccccagcttg 


aacagcccta 


240 


tgtgttcatt 


aaacgttctg 


atgccttaag 


caccaatcac ggccacaagg 


tcgttgagct 


300 


ggttgcagaa 


atggacggca 


ttcagtacgg 


tcgtagcggt ataacactgg 


gagtactcgt 


360 


gccacatgtg 


ggcgaaaccc 


caattgcata 


ccgcaatgtt cttcttcgta 


agaacggtaa 


420 


taagggagcc 


ggtggtcata 


gctatggcat 


cgatctaaag tcttatgact 


taggtgacga 


480 


gcttggcact 


gatcccattg 


aagattatga 


acaaaactgg aacactaagc 


atggcagtgg 


540 


tgcactccgt 


gaactcactc 


gtgagctcaa 


tggaggtgca gtcactcgct 


atgtcgacaa 


600 


caatttctgt 


ggcccagatg 


ggtaccctct 


tgattgcatc aaagattttc 


tcgcacgcgc 


660 


gggcaagtca 


atgtgcactc 


tttccgaaca 


acttgattac atcgagtcga 


agagaggtgt 


720 
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ctactgctgc 


cgtgaccatg 


agcatgaaat 
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actgagcgct 


ctgataagag 


780 


ctacgagcac 


cagacaccct 


tcgaaattaa 


gagtgccaag 


aaatttgaca 


ctttcaaagg 


840 


ggaatgccca 


aagtttgtgt 


ttcctcttaa 


ctcaaaagtc 


aaagtcattc 


aaccacgtgt 


900 


tgaaaagaaa 


aagactgagg 


gtttcatggg 


gcgtatacgc 


tctgtgtacc 


ctgttgcatc 


960 


tccacaggag 


tgtaacaata 


tgcacttgtc 


taccttgatg 


aaatgtaatc 


attgcgatga 


1020 


agtttcatgg 


cagacgtgcg 


actttctgaa 


agccacttgt 


gaacattgtg 


gcactgaaaa 


1080 


tttagttatt 


gaaggaccta 


ctacatgtgg 


gtacctacct 


actaatgctg 


tagtgaaaat 


1140 


gccatgtcct 


gcctgtcaag 


acccagagat 


tggacctgag 


catagtgttg 


cagattatca 


1200 


caaccactca 


aacattgaaa 


ctcgactccg 


caagggaggt: 


aggactagat 


gttttggagg 


1260 


ctgtgtgttt 


gcctatgttg 


gctgctataa 


taagcgtgcc 


tactgggttc 


ctcgtgctag 


1320 


tgctgatatt 


ggctcaggcc 


atactggcat 


tactggtgac 


aatgtggaga 


ccttgaatga 


1380 


ggatctcctt 


gagatactga 


gtcgtgaacg 


tgttaacatt 


aacattgttg 


gcgattttca 


1440 


tttgaatgaa 


gaggttgcca 


tcattttggc 


atctttctct 


gcttctacaa 


gtgcctttat 


1500 


tgacactata 


aagagtcttg 


attacaagtc 


tttcaaaacc 


attgttgagt 


cctgcggtaa 


1560 


ctataaagtt 


accaagggaa 


agcccgtaaa 


aggtgcttgg 


aacattggac 


aacagagatc 


1620 


agttttaaca 


ccactgtgtg 


gttttccctc 


acaggctgct 


ggtgttatca 


gatcaatttt 


1680 


tgcgcgcaca 


cttgatgcag 


caaaccactc 


aattcctgat 


ttgcaaagag 


cagctgtcac 


1740 


catacttgat 


ggtatttctg 


aacagtcatt 


acgtcttgtc 


gacgccatgg 


tttatacttc 


1800 


agacccgcxc 


accaacagxg 


Lcati Latitat: 


ggcatatgta 


actggtggtc 


ttgtacaaca 


looU 


gacttctcag 


tggttgtcta 


atcttttggg 


cactactgtt 


gaaaaactca 


ggcctatctt 


1920 


tgaatggatt 


gaggcgaaac 


ttagtgcagg 


agttgaattt 


ctcaaggatg 


cttgggagat 


1980 


tctcaaattt 


ctcattacag 


gtgtttttga 


catcgtcaag 


ggtcaaatac 


agg 


2033 


<210> 43<211> 2018<212> DNA<213> CORONAVIRUS<400> 
ggattgaggc gaaacttagt gcaggagttg aatttctcaa ggatgcttgg 


43 

gagattctca 


60 


aatttctcat tacaggtgtt 


tttgacatcg 


tcaagggtca 


aatacaggtt 


gcttcagata 


120 


acatcaagga ttgtgtaaaa tgcttcattg 


atgttgttaa caaggcactc 


gaaatgtgca 


180 


ttgatcaagt 


cactatcgct 


ggcgcaaagt 


tgcgatcact 


caacttaggt 


gaagtcttca 


240 


tcgctcaaag 


caagggactt 


taccgtcagt 


gtatacgtgg 


caaggagcag 


ctgcaactac 


300 


tcatgcctct 


taaggcacca 


aaagaagtaa 


cctttcttga 


aggtgattca 


catgacacag 


360 


tacttacctc tgaggaggtt 


gttctcaaga 


acggtgaact 


cgaagcactc 


gagacgcccg 


420 


ttgatagctt 


cacaaatgga 


gctatcgttg 


gcacaccagt 


ctgtgtaaat 


ggcctcatgc 


480 


tcttagagat 


taaggacaaa 


gaacaatact 


gcgcattgtc 


tcctggttta 


ctggctacaa 


540 


acaatgtctt 


tcgcttaaaa 


gggggtgcac 


caattaaagg 


tgtaaccttt 


ggagaagata 


600 


ctgtttggga agttcaaggt 


tacaagaatg 


tgagaatcac 


atttgagctt 


gatgaacgtg 


660 
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ttgacaaagt gcttaatgaa aagtgctctg tctacactgt tgaatccggt accgaagtta 720 

ctgagtttgc atgtgttgta gcagaggctg ttgtgaagac tttacaacca gtttctgatc 780 

tccttaccaa catgggtatt gatcttgatg agtggagtgt agctacattc tacttatttg 840 

atgatgctgg tgaagaaaac ttttcatcac gtatgtattg ttccttttac cctccagatg 900 

aggaagaaga ggacgatgca gagtgtgagg aagaagaaat tgatgaaacc tgtgaacatg 960 

agtacggtac agaggatgat tatcaaggtc tccctctgga atttggtgcc tcagctgaaa 1020 

cagttcgagt tgaggaagaa gaagaggaag actggctgga tgatactact gagcaatcag 1080 

agattgagcc agaaccagaa cctacacctg aagaaccagt taatcagttt actggttatt 1140 

taaaacttac tgacaatgtt gccattaaat gtgttgacat cgttaaggag gcacaaagtg 1200 

ctaatcctat ggtgattgta aatgctgcta acatacacct gaaacatggt ggtggtgtag 1260 

caggtgcact caacaaggca accaatggtg ccatgcaaaa ggagagtgat gattacatta 1320 

agctaaatgg ccctcttaca gtaggagggt cttgtttgct ttctggacat aatcttgcta 1380 

agaagtgtct gcatgttgtt ggacctaacc taaatgcagg tgaggacatc cagcttctta 1440 

aggcagcata tgaaaatttc aattcacagg acatcttact tgcaccattg ttgtcagcag 1500 

gcatatttgg tgctaaacca cttcagtctt tacaagtgtg cgtgcagacg gttcgtacac 1560 

aggtttatat tgcagtcaat gacaaagctc tttatgagca ggttgtcatg gattatcttg 1620 

ataacctgaa gcctagagtg gaagcaccta aacaagagga gccaccaaac acagaagatt 1680 

ccaaaactga ggagaaatct gtcgtacaga agcctgtcga tgtgaagcca aaaattaagg 1740 

cctgcattga tgaggttacc acaacactgg aagaaactaa gtttcttacc aataagttac 1800 

tcttgtttgc tgatatcaat ggtaagcttt accatgattc tcagaacatg cttagaggtg 1860 

aagatatgtc tttccttgag aaggatgcac cttacatggt aggtgatgtt atcactagtg 1920 

gtgatatcac ttgtgttgta ataccctcca aaaaggctgg tggcactact gagatgctct 1980 

caagagcttt gaagaaagtg ccagttgatg agtatata 2018 

SS£n*2i?i£ 1442<212> DNA<213> CORONAVIRUS<400> 44 

ttgatgaggt taccacaaca ctggaagaaa ctaagtttct taccaataag ttactcttgt 60 

ttgctgatat caatggtaag ctttaccatg attctcagaa catgcttaga ggtgaagata 120 

tgtctttcct tgagaaggat gcaccttaca tggtaggtga tgttatcact agtggtgata 180 

tcacttgtgt tgtaataccc tccaaaaagg ctggtggcac tactgagatg ctctcaagag 240 

ctttgaagaa agtgccagtt gatgagtata taaccacgta ccctggacaa ggatgtgctg 300 

gttatacact tgaggaagct aagactgctc ttaagaaatg caaatctgca ttttatgtac 360 

taccttcaga agcacctaat gctaaggaag agattctagg aactgtatcc tggaatttga 420 

gagaaatgct tgctcatgct gaagagacaa gaaaattaat gcctatatgc atggatgtta 480 

gagccataat ggcaaccatc caacgtaagt ataaaggaat taaaattcaa gagggcatcg 540 

ttgactatgg tgtccgattc ttcttttata ctagtaaaga gcctgtagct tctattatta 600 
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cgaagctgaa ctctctaaat gagccgcttg tcacaatgcc aattggttat gtgacacatg 
gttttaatct tgaagaggct gcgcgctgta tgcgttctct taaagctcct gccgtagtgt 
cagtatcatc accagatgct gttactacat ataatggata cctcacttcg tcatcaaaga 
catctgagga gcactttgta gaaacagttt ctttggctgg ctcttacaga gattggtcct 
attcaggaca gcgtacagag ttaggtgttg aatttcttaa gcgtggtgac aaaattgtgt 
accacactct ggagagcccc gtcgagtttc atcttgacgg tgaggttctt tcacttgaca 
aactaaagag tctcttatcc ctgcgggagg ttaagactat aaaagtgttc acaactgtgg 
acaacactaa tctccacaca cagcttgtgg atatgtctat gacatatgga cagcagtttg 
gtccaacata cttggatggt gctgatgtta caaaaattaa acctcatgta aatcatgagg 
gtaagacttt ctttgtacta cctagtgatg acacactacg tagtgaagct ttcgagtact 
accatactct tgatgagagt tttcttggta ggtacatgtc tgctttaaac cacacaaaga 
aatggaaatt tcctcaagtt ggtggtttaa cttcaattaa atgggctgat aacaattgtt 
atttgtctag tgttttatta gcacttcaac agcttgaagt caaattcaat gcaccagcac 
ttcaagaggc ttattataga gcccgtgctg gtgatgctgc taacttttgt gcactcatac 
tc 

<210> 45<211> 1050<212> DNA<213> CORONAVIRUS<400> 45 
ata?gtctlt gacatatgga cagcagtttg gtccaacata cttggatggt gctgatgtta 60 

caaaaattaa acctcatgta aatcatgagg gtaagacttt ctttgtacta cctagtgatg 

acacactacg tagtgaagct ttcgagtact accatactct tgatgagagt tttcttggta 

ggtacatgtc tgctttaaac cacacaaaga aatggaaatt tcctcaagtt ggtggtttaa 

cttcaattaa atgggctgat aacaattgtt atttgtctag tgttttatta gcacttcaac 

agcttgaagt caaattcaat gcaccagcac ttcaagaggc ttattataga gcccgtgctg 

gtgatgctgc taacttttgt gcactcatac tcgcttacag taataaaact gttggcgagc 

ttggtgatgt cagagaaact atgacccatc ttctacagca tgctaatttg gaatctgcaa 

agcgagttct taatgtggtg tgtaaacatt gtggtcagaa aactactacc ttaacgggtg 

tagaagctgt gatgtatatg ggtactctat cttatgataa tcttaagaca ggtgtttcca 

ttccatgtgt gtgtggtcgt gatgctacac aatatctagt acaacaagag tcttcttttg 

ttatgatgtc tgcaccacct gctgagtata aattacagca aggtacattc ttatgtgcga 

atgagtacac tggtaactat cagtgtggtc attacactca tataactgct aaggagaccc 

tctatcgtat tgacggagct caccttacaa agatgtcaga gtacaaagga ccagtgactg 

atgttttcta caaggaaaca tcttacacta caaccatcaa gcctgtgtcg tataaactcg 

atggagttac ttacacagag attgaaccaa aattggatgg gtattataaa aaggataatg 

cttactatac agagcagcct atagaccttg taccaactca accattacca aatgcgagtt 1020 

ttgataattt caaactcaca tgttctaaca 
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<210> 46<211> 1995<212> DNA<213> CORONAVIRUS<400> 46 

tttgtgcact catactcgct tacagtaata aaactgttgg cgagcttggt gatgtcagag 60 

aaactatgac ccatcttcta cagcatgcta atttggaatc tgcaaagcga gttcttaatg 120 

tggtgtgtaa acattgtggt cagaaaacta ctaccttaac gggtgtagaa gctgtgatgt 180 

atatgggtac tctatcttat gataatctta agacaggtgt ttccattcca tgtgtgtgtg 240 

gtcgtgatgc tacacaatat ctagtacaac aagagtcttc ttttgttatg atgtctgcac 300 

cacctgctga gtataaatta cagcaaggta cattcttatg tgcgaatgag tacactggta 360 

actatcagtg tggtcattac actcatataa ctgctaagga gaccctctat cgtattgacg 420 

gagctcacct tacaaagatg tcagagtaca aaggaccagt gactgatgtt ttctacaagg 480 

aaacatctta cactacaacc atcaagcctg tgtcgtataa actcgatgga gttacttaca 540 

cagagattga accaaaattg gatgggtatt ataaaaagga taatgcttac tatacagagc 600 

agcctataga ccttgtacca actcaaccat taccaaatgc gagttttgat aatttcaaac 660 

tcacatgttc taacacaaaa tttgctgatg atttaaatca aatgacaggc ttcacaaagc 720 

cagcttcacg agagctatct gtcacattct tcccagactt gaatggcgat gtagtggcta 780 

ttgactatag acactattca gcgagtttca agaaaggtgc taaattactg cataagccaa 840 

ttgtttggca cattaaccag gctacaacca agacaacgtt caaaccaaac acttggtgtt 900 

tacgttgtct ttggagtaca aagccagtag atacttcaaa ttcatttgaa gttctggcag 960 

tagaagacac acaaggaatg gacaatcttg cttgtgaaag tcaacaaccc acctctgaag 1020 

aagtagtgga aaatcctacc atacagaagg aagtcataga gtgtgacgtg aaaactaccg 1080 

aagttgtagg caatgtcata cttaaaccat cagatgaagg tgttaaagta acacaagagt 1140 

taggtcatga ggatcttatg gctgcttatg tggaaaacac aagcattacc attaagaaac 1200 

ctaatgagct ttcactagcc ttaggtttaa aaacaattgc cactcatggt attgctgcaa 1260 

ttaatagtgt tccttggagt aaaattttgg cttatgtcaa accattctta ggacaagcag 1320 

caattacaac atcaaattgc gctaagagat tagcacaacg tgtgtttaac aattatatgc 1380 

cttatgtgtt tacattattg ttccaattgt gtacttttac taaaagtacc aattctagaa 1440 

ttagagcttc actacctaca actattgcta aaaatagtgt taagagtgtt gctaaattat 1500 

gtttggatgc cggcattaat tatgtgaagt cacccaaatt ttctaaattg ttcacaatcg 1560 

ctatgtggct attgttgtta agtatttgct taggttctct aatctgtgta actgctgctt 1620 

ttggtgtact cttatctaat tttggtgctc cttcttattg taatggcgtt agagaattgt 1680 

atcttaattc gtctaacgtt actactatgg atttctgtga aggttctttt ccttgcagca 1740 

tttgtttaag tggattagac tcccttgatt cttatccagc tcttgaaacc attcaggtga 1800 

cgatttcatc gtacaagcta gacttgacaa ttttaggtct ggccgctgag tgggttttgg 1860 

catatatgtt gttcacaaaa ttcttttatt tattaggtct ttcagctata atgcaggtgt 1920 

tctttggcta ttttgctagt catttcatca gcaattcttg gctcatgtgg tttatcatta 1980 
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gtattgtaca aatgg 1995 

<210> 47<211> 1884<212> DNA<213> CORONAVIRUS<400> 47 

aattcttggc tcatgtggtt tatcattagt attgtacaaa tggcacccgt ttctgcaatg 60 

gttaggatgt acatcttctt tgcttctttc tactacatat ggaagagcta tgttcatatc 120 

atggatggtt gcacctcttc gacttgcatg atgtgctata agcgcaatcg tgccacacgc 180 

gttgagtgta caactattgt taatggcatg aagagatctt tctatgtcta tgcaaatgga 240 

ggccgtggct tctgcaagac tcacaattgg aattgtctca attgtgacac attttgcact 300 

ggtagtacat tcattagtga tgaagttgct cgtgatttgt cactccagtt taaaagacca 360 

atcaacccta ctgaccagtc atcgtatatt gttgatagtg ttgctgtgaa aaatggcgcg 420 

cttcacctct actttgacaa ggctggtcaa aagacctatg agagacatcc gctctcccat 480 

tttgtcaatt tagacaattt gagagctaac aacactaaag gttcactgcc tattaatgtc 540 

atagtttttg atggcaagtc caaatgcgac gagtctgctt ctaagtctgc ttctgtgtac 600 

tacagtcagc tgatgtgcca acctattctg ttgcttgacc aagctcttgt atcagacgtt 660 

ggagatagta ctgaagtttc cgttaagatg tttgatgctt atgtcgacac cttttcagca 720 

acttttagtg ttcctatgga aaaacttaag gcacttgttg ctacagctca cagcgagtta 780 

gcaaagggtg tagctttaga tggtgtcctt tctacattcg tgtcagctgc ccgacaaggt 840 

gttgttgata ccgatgttga cacaaaggat gttattgaat gtctcaaact ttcaeatcac 

tctgacttag aagtgacagg tgacagttgt aacaatttca tgctcaccta taataaggtt 

gaaaacatga cgcccagaga tcttggcgca tgtattgact gtaatgcaag gcatatcaat 1020 

gcccaagtag caaaaagtca caatgtttca ctcatctgga atgtaaaaga ctacatgtct 1080 

ttatctgaac agctgcgtaa acaaattcgt agtgctgcca agaagaacaa catacctttt 1140 

agactaactt gtgctacaac tagacaggtt gtcaatgtca taactactaa aatctcactc 1200 

aagggtggta agattgttag tacttgtttt aaacttatgc ttaaggccac attattgtgc 1260 

gttcttgctg cattggtutg ttatatcgtt atgccagtac atracattgtc aatccatgat 1320 

ggttacacaa atgaaatcat tggttacaaa gccattcagg atggtgtcac tcgtgacatc 1380 

atttctactg atgattgttt tgcaaataaa catgctggtt ttgacgcatg gtttagccag 1440 

cgtggtggtt catacaaaaa tgacaaaagc tgccctgtag tagctgctat cattacaaga 1500 

gagattggtt tcatagtgcc tggcttaccg ggtactgtgc tgagagcaat caatggtgac 1560 

ttcttgcatt ttctacctcg tgtttttagt gctgttggca acatttgcta cacaccttcc 1620 

aaactcattg agtatagtga ttttgctacc tctgcttgcg ttcttgctgc tgagtgtaca 1680 

atttttaagg atgctatggg caaacctgtg ccatattgtt atgacactaa tttgctagag 1740 

ggttctattt cttatagtga gcttcgtcca gacactcgtt atgtgcttat ggatggttcc 1800 

atcatacagt ttcctaacac ttacctggag ggttctgtta gagtagtaac aacttttgat 1860 

gctgagtact gtagacatgg taca 1884 

Page 66 



900 
960 




S226CAS111.ST25 
<210> 48<211> 2O20<212> DNA<213> CORONAVIRUS<400> 48 



cactcgttat 


gtgcttatgg 


atggttccat 


catacagttt 


cctaacactt 


acctggaggg 


60 


ttctgttaga 


gtagtaacaa 


cttttgatgc 


tgagtactgt 


agacatggta 


catgcgaaag 


120 


gtcagaagta 


ggtatttgcc 


tatctaccag 


tggtagatgg 


gttcttaata 


atgagcatta 


180 


cagagctcta 


tcaggagttt 


tctgtggtgt 


tgatgcgatg 


aatctcatag 


ctaacatctt 


240 


tactcctctt 


gtgcaacctg 


tgggtgcttt 


agatgtgtct 


gcttcagtag 


tggctggtgg 


300 


tattattgcc 


atattggtga 


cttgtgctgc 


ctactacttt 


atgaaattca 


gacgtgtttt 


360 


tggtgagtac 


aaccatgttg 


ttgctgctaa 


tgcacttttg 


tttttgatgt 


ctttcactat 


420 


actctgtctg 


gtaccagctt 


acagctttct 


gccgggagtc 


tactcagtct 


tttacttgta 


480 


cttgacattc 


tatttcacca 


atgatgtttc 


attcttggct 


caccttcaat 


ggtttgccat 


540 


gttttctcct 


attgtgcctt 


tttggataac 


agcaatctat 


gtattctgta tttctctgaa 


600 


gcactgccat 


tggttcttta 


acaactatct 


taggaaaaga gtcatgttta 


atggagttac 


660 


atttagtacc 


ttcgaggagg 


ctgctttgtg 


tacctttttg 


ctcaacaagg 


aaatgtacct 


720 


aaaattgcgt 


agcgagacac 


tgttgccact 


tacacagtat 


aacaggtatc 


ttgctctata 


780 


taacaagtac 


aagtatttca 


gtggagcctt 


agatactacc agctatcgtg 


aagcagcttg 


840 


ctgccactta 


gcaaaggctc 


taaatgactt 


tagcaactca ggtgctgatg 


ttctctacca 


900 


accaccacag 


acatcaatca 


cttctgctgt 


tctgcagagt 


ggttttagga 


aaatggcatt 


960 


cccgtcaggc 


aaagttgaag 


ggtgcatggt 


acaagtaacc 


tgtggaacta 


caactcttaa 


1020 


tggattgtgg 


ttggatgaca 


cagtatactg 


tccaagacat 


gtcatttgca 


cagcagaaga 


1080 


catgcttaat 


cctaactatg 


aagatctgct 


cattcgcaaa 


tccaaccata 


gctttcttgt 


1140 


tcaggctggc 


aatgttcaac 


ttcgtgttat 


tggccattct 


atgcaaaatt 


gtctgcttag 


1200 


gcttaaagtt 


gatacttcta 


accctaagac 


acccaagtat 


aaatttgtcc 


gtatccaacc 


1260 


tggtcaaaca 


ttttcagttc 


tagcatgcta 


caatggttca 


ccatctggtg 


tttatcagtg 


1320 


tgccatgaga 


cctaatcata 


ccattaaagg 


ttctttcctt 


aatggatcat 


gtggtagtgt 


1380 


tggttttaac 


attgattatg 


attgcgtgtc 


tttctgctat atgcatcata 


tggagcttcc 


1440 


aacaggagta 


cacgctggta 


ctgacttaga 


aggtaaattc tatggtccat ttgttgacag 


1500 


acaaactgca 


caggctgcag 


gtacagacac 


aaccataaca ttaaatgttt 


tggcatggct 


1560 


gtatgctgct 


gttatcaatg 


gtgataggtg 


gtttcttaat agattcacca ctactttgaa 


1620 


tgactttaac 


cttgtggcaa 


tgaagtacaa 


ctatgaacct ttgacacaag 


atcatgttga- 


1680 


catattggga 


cctctttctg 


ctcaaacagg 


aattgccgtc 


ttagatatgt gtgctgcttt 


1740 


gaaagagctg 


ctgcagaatg 


gtatgaatgg 


tcgtactatc 


cttggtagca 


ctattttaga 


1800 


agatgagttt 


acaccatttg 


atgttgttag 


acaatgctct 


ggtgttacct tccaaggtaa 


1860 


gttcaagaaa 


attgttaagg 


gcactcatca 


ttggatgctt 


ttaactttct 


tgacatcact 


1920 


attgattctt 


gttcaaagta 


cacagtggtc 


actgtttttc 


tttgtttacg agaatgcttt 


1980 
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cttgccattt actcttggta ttatggcaat tgctgcatgt 2020 

<210> 49<211> 2040<212> DNA<213> CORONAVIRUS<400> 49 

agcatttcca gcctgaagac gtactgtagc agctaaactg cccagcacca tacctctatt 60 

taggttgttt aagcctttga tgaagtacaa gtatttcact ttaggccctt ttggtgtgtc 120 

tgtaacaaac ctacaaggtg gttccagttc tgtgtaaatt gtacctgtac catcactctt 180 

agggaatcta gcccatttga gatcttggtg gtctgatagt aatgccagca caaacctacc 240 

tcccttcgaa ttgttatagt aggcaagtgc attgtcatca gtacaagctg tttgtgtggt 300 

accagccgca caggacatct gtcgtagtgc tactggactc agttcattat tctgtagttt 360 

aacagctgag ttggctctta gagctgtaac aataagaggc caagccaaat ttggtgaatt 420 

gtccatgtta attrtcactaa gttgaacaat cttgctatcc gcatcaacaa cttgctggat 480 

ttcccagagt gcagatgcat atgtaaaggt gttaccatca caagtgttct tgtaggtacc 540 

ataatcaggg acaacaacca tgagtttggc tgctgtagtc aatggtatga tgttgagtgg 600 

aacacaacca tcacgcgcat tgttgataat gttgttaagt gcatcattat caagcttcct 660 

aagcatagtg aagagcattg tttgcatagc actagttact tttgccctct tgtcctcaga 720 

tcttgcctgt ttgtacattt gggtcatagc ctgatctgcc atcttttcca acttgcgttg 780 

catggcagca tcacggtcaa actcagattt agccacattc aaagatttct ttaacttttt 840 

gagaacgact tcagaatcac cattagctac agcctgctca taggcctcct gggcagtggc 900 

ataagcggca tatgatggta aagaactaaa ttctgaagca atagcctgaa gagtagcacg 960 

gttatcgagc atttcctcgc acaacctatt aatgtctaca gcaccctgca tggatagcaa 1020 

aacagacaaa agagaaacca tcttctcgaa agcttcagtt gtgtcttttg caagaagaat 1080 

atcattgtgg agttgtacac attgtgccca caatttagaa gatgactcta ctctaagttg 1140 

ttgaagaacc gagagcagta ccacagatgt gcactttacg tcagacattt tagactgtac 1200 

agtagcaacc ttgatacatg gtttacctcc aatacccaac aacttaatgt taagcttgaa 1260 

agcatcaata ctactcttag gaggcaaaag cccctgggag ttcatatacc taaattcttg 1320 

tgtagagacc aagtagtcat aaacaccaag agtaagcctg aagtaacggt tgagtaaaca 1380 

gaaaaggcca aagtagcagc agcaacaata gcctaagaaa caataaacaa gcatgataca 1440 

ctgtaaggtg ttgccagtaa taaataacaa tgggtaatac tcaacacaca caaacactat 1500 

agctctagct aaaaacatga tagtcgtaac gacaccagaa tagttagagg ttacagaaat 1560 

aactaaggcc cacatggaaa tagcttgatc taaagcatta ccatagtaga ctttgtaaac 1620 

aagtgtaatg acattcatca gtgtccaaac acgtctagca gcatcatcat aaacagtgcg 1680 

agctgtcatg agaataagca aaactaaagc tgaagcatac ataacacaat ccttaagcct 1740 

ataaccagac aagctagtgt cagccaattc aagccatgtc atgatacgca tcacccagct 1800 

agcaggcatg tagaccatat taaagtaagc aactgttgca agagaaggta acagaaacaa 1860 

gcacaagaat gcgtgcttat gcttaacaag cagcatagca catgcagcaa ttgccataat 1920 
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accaagagta aatggcaaga aagcattctc gtaaacaaag aaaaacagtg accactgtgt 
actttgaaca agaatcaata gtgatgtcaa gaaagttaaa agcatccaat gatgagtgca 

<210> 50<211> 2012<212> ONA<213> CORONAVIRUS<400> 50 

cttgtaggtt tgttacagac acaccaaaag ggcctaaagt gaaatacttg tacttcatca 60 

aaggcttaaa caacctaaat agaggtatgg tgctgggcag tttagctgct acagtacgtc 120 

ttcaggctgg aaatgctaca gaagtacctg ccaattcaac tgtgctttcc ttctgtgctt 180 

ttgcagtaga ccctgctaaa gcatataagg attacctagc aagtggagga caaccaatca 240 

ccaactgtgt gaagatgttg tgtacacaca ctggtacagg acaggcaatt actgtaacac 300 

cagaagctaa catggaccaa gagtcctttg gtggtgcttc atgttgtctg tattgtagat 360 

gccacattga ccatccaaat cctaaaggat tctgtgactt gaaaggtaag tacgtccaaa .420 

tacctaccac ttgtgctaat gacccagtgg gttttacact tagaaacaca gtctgtaccg 480 

tctgcggaat gtggaaaggt tatggctgta gttgtgacca actccgcgaa cccttgatgc 540 

agtctgcgga tgcatcaacg tttttaaacg ggtttgcggt gtaagtgcag cccgtcttac 600 

accgtgcggc acaggcacta gtactgatgt cgtctacagg gcttttgata tttacaacga 660 

aaaagttgct ggttttgcaa agttxctaaa aactaattgc tgtcgcttcc aggagaagga 720 

tgaggaaggc aatttattag actcttactt tgtagttaag aggcatacta tgtctaacta 780 
ccaacatgaa gagactattt ataacttggt taaagattgt ccagcggttg ctgtccatga 
ctttttcaag tttagagtag atggtgacat ggtaccacat atatcacgtc agcgtctaac 

taaatacaca atggctgatt tagtctatgc tctacgtcat tttgatgagg gtaattgtga 960 

tacattaaaa gaaatactcg tcacatacaa ttgctgtgat gatgattatt tcaataagaa 1020 

ggattggtat gacttcgtag agaatcctga catcttacgc gtatatgcta acttaggtga 1080 

gcgtgtacgc caatcattat taaagactgt acaattctgc gatgctatgc gtgatgcagg 1140 

cattgtaggc gtactgacat tagataatca ggatcttaat gggaactggt acgatttcgg 1200 

tgatttcgta caagtagcac caggctgcgg agttcctatt gtggattcat attactcatt 1260 

gctgatgccc atcctcactt tgactagggc attggctgct gagtcccata tggatgctga 1320 

tctcgcaaaa ccacttatta agtgggattt gctgaaatat gattttacgg aagagagact 1380 

ttgtctcttc gaccgttatt ttaaatattg ggaccagaca taccatccca attgtattaa 1440 

ctgtttggat gataggtgta tccttcattg tgcaaacttt aatgtgttat tttctactgt 1500 

gtttccacct acaagttttg gaccactagt aagaaaaata tttgtagatg gtgttccttt 1560 

tgttgtttca actggatacc attttcgtga gttaggagtc gtacataatc aggatgtaaa 1620 

cttacatagc tcgcgtctca gtttcaagga acttttagtg tatgctgctg atccagctat 1680 

gcatgcagct tctggcaatt tattgctaga taaacgcact acatgctttt cagtagctgc 1740 

actaacaaac aatgttgctt ttcaaactgt caaacccggt aattttaata aagactttta 1800 

tgactttgct gtgtctaaag gtttctttaa ggaaggaagt tctgttgaac taaaacactt 1860 
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cttctttgct caggatggca acgctgctat cagtgattat gactattatc gttataatct 1920 

gccaacaatg tgtgatatca gacaactcct attcgtagtt gaagttgttg ataaatactt 1980 

tgattgttac gatggtggct gtattaatgc ca 2012 

<210> 51<211> 1877<212> DNA<213> CORONAVIRUS<400> 51 

gtacttcgcg tacagtggca ataccatatg acagcttaaa tgtttcctca gtggctttga 60 

gcgtttctgc tgcgaaaagc ttgagtctct cagtacaagt gttggcaagt atgtaatcgc 120 

cagcattagt ccaatcacat gttgctatcg cattgaagtc agtgacattg tcactgccta 180 

cacatgtgtt tttgtataaa ccaaaaacct gaccattagc acataatgga aaactaatgg 240 

gaggcttatg tgacttgcaa taatagctca tacctcctag atacagttgt gtcacatcag 300 

tgacatcaca acctggggca trtgcaaacat agggattaac agacaacact aatttgtgtg 360 

atgttgaaat gacatggtca tagcagcact tgcaacatag gaatggtctc ctaatacagg 420 

caccgcaacg aagtgaagtc tgtgaattgc acaatacaca agcacctaca gcctgcaaga 480 

ctgtatgtgg tgtgtacata gcctcataaa actcaggttc ccagtaccgt gaggtgttat 540 

cattagttag cattacggaa tacatgtcca acatgtggcc agtaagctca tcatgtaact 600 

ttctaatgta ttgtaaatac aagtgaaaga catrcagcata ctcctgatta ggatgttttg 660 

taagtgggta agcatcaata gccagtgaca cgaacctttc aatcataagt gtaccatctg 720 

ttttgacaat atcatcgaca aaacagcctg cgcctaatat tcttgatgga tctgggtaag 780 

gcaggtacac gtaatcatct ccttgtttaa ctagcattgt atgctgtgag caaaattcgt 840 

gaggtccttt agtaaggtca gtctcagtcc aacattttgc ctcagacatg aacacattat 900 

tttgataata aagaactgcc ttaaagttct taatgctagc tactaaacct tgagccgcat 960 

agttactgtt atagcacaca acggcatcat cagaaagaat catcatggag aaatgtttac 1020 

gcaggtaagc gtaaaactca tccacgaatt catgatcaac atccctattt ctatagagac 1080 

actcatagag cctgtgttgt agattgcgga catacttgtc agctatctta ttaccatcag 1140 

ttgaaagaag tgcatttaca ttggctgtaa cagcttgaca aatgttaaag acactattag 1200 

cataagcagt tgtagcatca ccggatgatg ttccacctgg tttaacatat agtgagccgc 1260 

cacacatgac catctcactt aatacttgcg cacactcgtt agctaacctg tagaaacggt 1320 

gtgataagtt acagcaagtg ttatgtttgc gagcaagaac aagagaggcc attatcctaa 1380 

gcatgttagg catggctctg tcacattttg gataatccca acccataagg tgtggagttt 1440 

ctacatcact gtaaacagtt tttaacatat tatgccagcc accgtaaaac ttgcttgttc 1500 

caattaccac agtagctcct ctagtggcgg ctattgactt caataatttc tgatgaaact 1560 

gtctatttgt catagtacta cagatagaga caccagctac ggtgcgagct ctattctttg 1620 

cactaatggc atacttaaga ttcatttgag ttatagtagg gatgacatta cgcttagtat 1680 

acgcgaaaag tgcatcttga tcctcataac tcattgagtc ataataaagt ctagccttac 1740 

cccatttatt aaatgggaaa ccagctgatt tatccagatt gttaacgatt acttggttgg 1800 
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cattaataca gccaccatcg taacaatcaa agtatttatc aacaacttca actacgaata 1860 

ggagttgtct gatatca 1877 

<210> 52<211> 2051<212> DNA<213> CORONAVIRUS<400> 52 

tcaggtccaa tcttgacaaa gtacttcatt gatgtaagct caaagccatg cgcccaaagg 60 

acgaacacga ctctgtctga caatcctttc agtgtatcac tgagcatttg tactatctta 120 

atacgcacta cattccaggg caagccttta tacatgagtg gtataagatg tttaaactgg 180 

tcacctggtg gaggttttgc attaactctg gtgaattctg tgttattttc agtgtcaaca 240 

taaccagtcg gtacagctac taagttaaca cctgtagaaa atcctagctg gagaggtagg 300 

ttagtaccca cagcatctct agttgcatga cagccctcta catcaaagcc aatccacgca 360 

cgaacgtgac gaatagcttc ttcgcgggtg ataaacatat tagggtaacc attgacttgg 420 

taattcattt tgaaacccat catagagatg agtctacggt aggtcatgtc ctttggtatg 480 

cctggtatgt caacacataa tccttcagtc ttgaacttta tatcaacgct gaggtgtgta 540 

ggtgcctgtg taggatgaag accagtaatg atcttactac agtccttaaa aagtccagtt 600 

acattttctg cttgtaatgt agccacattg cgacgtggta tttctagact tgtaaattgc 660 

agtttgtcat aaagatctct atcagacatt atgcacaaaa tgccaatttt tgcccttgtg 720 

atagccacat tgaagcggtt gacattacaa gagtgtgctg tttcagtagt ttgtgtgaat 780 

atgacatagt catattcaga accctgtgat gaatcaacag tctgcgtagg caatcctaag 840 

atttttgaag ctacagcgtt ctgtgaatta taaggtgaga taaaaacagc ttttctccaa 900 

gcaggattgc gtgtaagaaa ttctcttaca acgcctattt gaggtctgtt gattgcagat 960 

gaaacatcat gtgtaataac acctttgtag aacattttga agcattgagc tgacttatcc 1020 

ttgtgtgctt ttagcttatt gtcataaact aaagcactca cagtgtcaac aatttcagca 1080 

ggacaacggc gacaagttcc aaggaacatg tctggaccta ttgttttcat aagtctgcac 1140 

actgaattaa aatattctgg ttctagtgtg cctttagtca gcaatgtgcg gggggctggt 1200 

aattgagcag gatcgccaat atagacgtag tgttttgcac gaagtctagc attgacaaca 1260 

ctcaagtcat aattagtagc catagagatt tcatcaaaga ctacaatgtc agcagttgtt 1320 

tctggcaatg catttacagt gcagaaaaca tactgttcta gtgttgaatt cactttgaat 1380 

ttatcaaaac actctacgcg cgcacgcgca ggtatgattc tactacattt atxtatgggc 1440 

aaatatttta atgccttttc acatagggca tcaacagctg catgagagca tgccgtatac 1500 

actatgcgag cagatgggta atagagagca agtccgatgg caaaatgact cttaccagta 1560 

ccaggtggtc cttggagtgt agagtacttt tgcatgccga ccttttgata atttgcaaca 1620 

ttgctagaaa actcatctga gatgttgagt gttgggtaca agccagtaat tctcacatag 1680 

tgctcttgtg gcactagagt aggtgcacta agtggcatta cagtgtgaga tgtcaacaca 1740 

aagtaatcac caacattcaa cttgtatgtc gtagtacctc tgtacacaac agcatcacca 1800 

tagtcacctt trtcaaaggt gtactctcca atctgtactt tactattttt agttacacgg 1860 
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taaccagtaa agacatagtt tctgttcaat ggtggtctag gttttccaac ctcccatgaa 1920 
agatgcaatt ctctgtcaga gagtacttcg cgtacagtgg caataccata tgacagctta 
aatgtttcct cagtggcttt gagcgtttct gctgcgaaaa gcttgagtct ctcagtacaa 
gtgttggcaa g 



1980 
2040 
2051 

60 
120 



<210> 53<211> 2075<212> DNA<213> CORONAVIRUS<400> 53 
tgcttgtagt tttgggtaga aggtttcaac atgtccatcc ttacaccaaa gcatgaatga 

aatttcagca tagtcaattg taaccttgac cacttttgaa atcactgaca aatcttgtga 

ctttattatc tcgacaaagt catcaagtaa aagatcaatc acagaacaca cacattttga 180 

tgaacctgtt tgcgcatctg ttatgaagta atttttcact gtgctgtcca tagggataaa 240 

atcctctaat ttaagtggtg aatcttgtga gcgcttggct aagcctatca ttaaatgaag 300 

accgccaagt tgtccatgac tgaaatctcc ataaacgatg tgttcgaagg catagccctc 360 

gagcttatat cgctgtatga attcatccat agcgagctcg agaaagtcag tttccatttg 420 

tgatctgggc ttaaaatcct ctaagtctct gctctgagta aagtaggttt caggcaactg 480 

ttgaataatg ccgtctactt tcttaaagta gttaaactgt gtttttactg attctccaat 540 
taatgtgact ccattgacgc tagcttgtgc tggtcccttt gaaggtgtta gacctttgac 
tgaaccttct gttattaaaa caccattacg ggcgtttcta aaaaggtcta cctgtccttc 

cactctacca tcaaacaaga cagtaagtga agaacaagca ctctcagtag gtttcttggc 720 

aatgtcagtc attgtgcaga cacctattgt agatacatgt gctggggctt ctcttttgta 780 
gtcccagatt acagtattag cagcgatatc aacacccaaa ttattgagta tcttaatctc 
tggcactggt ttaatgttac gcttagccca aagctcaaat gcaacattaa caggaagtgt 
tgtcttattt tcaaagatct ccacatcaat accatctacc tttgtgtaaa cagcattatt 

aatgatggaa acaggtgctt cgccggcgtg tccatcaaag tgtcctttat taacaacatt 1020 

ataagccaca ttttctaaac tctgtaacct ggtaaatgta ttccacaggt tataagtatc 1080 

aaattgtttg taaatccata ggctaaatcc agcagaaatc atcatattat atgcatccaa 1140 

gtactgtcgg tactcatttg catggtgtct gcaaacagca ccacctaaat tgcatcgtgt 1200 

aatacacgta gcagatttga gtggaacata atcaatatcc gacactactt gtttgccatg 1260 

agactcacaa ggactatcag aatagtaaaa gaaaggcaat tgctttaaat tagtaaatgc 1320 

acttttatcg aaagctggag tgtggaatgc atgcttattc acatacaaac taccaccatc 1380 

acagcctggt aagttcaagt ttgacaagac tcttgtgtca aacctacaca caattgcatt 1440 

ggctgggtaa cgatcaacgt tacaattcca aaacaaacaa acaccatcag tgaatttatc 1500 

gtgatgtgta gcataagaat agaagagttc ctctattttg taagctttgt cactacatgg 1560 

ctgagcatcg tagaacttcc attctacttc agcctgaggc acacacttga tagcctttgg 1620 

atttccaatg tcatgaagaa ctggaaactt atcagcaagc aatgcagact tcacaaccat 1680 

gtgttgtact tttctgcaag cagaattaac cctcagttca tctcctataa tagggtattc 1740 
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aacagaccaa tcaacgcgct taacaaagca ctcatggact gctaaacatc tagtcatgat 1800 

agcatcacaa ctagccacat gtgcatttcc atgtacctgg caatgttggt catggttact 1860 

ctgaaggtta cccgtaaagc cccactgctg aacatcaatc ataaatgggt tatagacata 1920 

gtcaaaaccc acagaatgat tccagcaggc ataagtatct gatgaagtag aaaagcaagt 1980 

tgcacgtttg tcacacagac aacacgttct ttcaggtcca atcttgacaa agtacttcat 2040 

tgatgtaagc tcaaagccat gcgcccaaag gacga 2075 

<210> 54<211> 1891<212> DNA<213> CORONAVIRUS<400> 54 

aagattcacc acttaaatta gaggatttta tccctatgga cagcacagtg aaaaattact 60 

tcataacaga tgcgcaaaca ggttcatcaa aatgtgtgtg ttctgtgatt gatcttttac 120 

ttgatgactt tgtcgagata ataaagtcac aagatttgtc agtgatttca aaagtggtca 180 

aggttacaat tgactatgct gaaatttcat tcatgctttg gtgtaaggat ggacatgttg 240 

aaaccttcta cccaaaacta caagcaagtc aagcgtggca accaggtgtt gcgatgccta 300 

acttgtacaa gatgcaaaga atgcttcttg aaaagtgtga ccttcagaat tatggtgaaa 360 

atgctgttat accaaaagga ataatgatga atgtcgcaaa gtatactcaa ctgngtcaat 420 

acttaaatac acttacttta gctgtaccct acaacatgag agttattcac tttggtgctg 480 

gctctgataa aggagttgca ccaggtacag ctgtgctcag acaatggttg ccaactggca 540 

cactacttgt cgattcagat cttaatgact tcgtctccga cgcagattct actttaattg 600 

gagactgtgc aacagtacat acggctaata aatgggacct tattattagc gatatgtatg 660 

accctaggac caaacatgtg acaaaagaga atgactctaa agaagggttt ttcacttatc 720 

tgtgtggatt tataaagcaa aaactagccc tgggtggttc tatagctgta aagataacag 780 

agcattcttg gaatgctgac ctttacaagc ttatgggcca tttctcatgg tggacagctt 840 

ttgttacaaa tgtaaatgca tcatcatcgg aagcattttt aattggggct aactatcttg 900 

gcaagccgaa ggaacaaatt gatggctata ccatgcatgc taactacatt ttctggagga 960 

acacaaatcc tatccagttg tcttcctatt cactctttga catgagcaaa tttcctctta 1020 

aattaagagg aactgctgta atgtctctta aggagaatca aatcaatgat atgatttatt 1080 

ctcttctgga aaaaggtagg cttatcatta gagaaaacaa cagagttgtg gtttcaagtg 1140 

atattcttgt taacaactaa acgaacatgt ttattttctt attatttctt actctcacta 1200 

gtggtagtga ccttgaccgg tgcaccactt ttgatgatgt tcaagctcct aattacactc 1260 

aacatacttc atctatgagg ggggtttact atcetgatga aatttttaga tcagacacte 1320 

tttatttaac tcaggattta tttcttccat tttattctaa tgttacaggg tttcatacta 1380 

ttaatcatac gtttggcaac cctgtcatac cttttaagga tggtatttat tttgctgcca 1440 

cagagaaatc aaatgttgtc cgtggttggg tttttggttc taccatgaac aacaagtcac 1500 

agtcggtgat tattattaac aattctacta atgttgttat acgagcatgt aactttgaat 1560 

tgtgtgacaa ccctttcttt gctgtttcta aacccatggg tacacagaca catactatga 1620 
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tattcgataa tgcatttaat tgcactttcg agtacatatc tgatgccttt tcgcttgatg 1680 

tttcagaaaa gtcaggtaat tttaaacact tacgagagtt tgtgtttaaa aataaagatg 1740 

ggtttctcta tgtttataag ggctatcaac ctatagatgt agttcgtgat ctaccttctg 1800 

gttttaacac tttgaaacct atttttaagt tgcctcttgg tattaacatt acaaatttta 1860 

1891 

gagccattct tacagccttt tcacctgctc a 

<210> 55<211> 32<212> DNA<213> ARTIFICIAL SEQUENCE<220><223> amorce N sens 

<400> 55 37 
cccatatgtc tgataatgga ccccaatcaa ac 

<210> 56<211> 32<212> dna<213> artificial sequence<220><223> amorce N 
antisens 

<400> 56 32 
cccccgggtg cctgagttga atcagcagaa gc 

<210> 57<211> 31<212> DNA<213> artificial sequence<220><223> amorce Sc sens 

<400> 57 31 
cccatatgag tgaccttgac cggtgcacca c 

<210> 58<211> 30<212> DNA<213> artificial sequence<220><223> amorce SL sens 

<400> 58 30 
cccatatgaa accttgcacc ccacctgctc 

<210> 59<211> 33<212> DNA<213> amorce Sc et SL antisens<400> 59 
cccccgggtt taatatattg ctcatatttt ccc 

<210> 60<211> 16<212> dna<213> amorce sens serie 1<400> 60 
ggcatcgtat gggttg 

<210> 61<211> 16<212> dna<213> amorce antisens serie 2 (28774-28759)<400> 

61 16 
cagtttcacc acctcc 

<210> 62<211> 16<212> DNA<213> amorce sens serie 2 (28375-28390) <400> 62 
ggctactacc gaagag 

<210> 63<211> 16<212> ONA<213> amorce antisens serie 2 (28702-28687)<400> 

63 16 
aattaccgcg actacg 

<210> 64<211> 26<212> DNA<213> sonde 1/serie 1 (28561-28586)<400> 64 
ggcacccgca atcctaataa caatgc 

<210> 65<211> 21<212> DNA<213> sonde 2/serie 1 (28588-28608)<400> 65 
gccaccgtgc tacaacttcc t 

<210> 66<211> 23<212> DNA<213> sonde 1/serie 2 /sonde n/fl 
(28541-28563)<400> 66 
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atacacccaa agaccacatt ggc 

<210> 67<211> 25<212> DNA<213> sonde 2/serie 2/sonde SARS/N/LC705 
(28565-28589)<400> 67 25 
cccgcaatcc taataacaat gctgc 

<210> 68<211> 30<212> DNA<213> artificial sequence<220><223> amorce ancre 
14T 

<400> 68 in 
agatgaattc ggtacctttt tttttttttt 3V 

<210> 69<211> 13<212> PRT<213> artificial sequence<220><223> peptide M2-14 
<400> 69 

Ala Asp Asn Gly Thr He Thr val Glu Glu Leu Lys Gin 
15 10 

<210> 70<211> 12<212> PRT<213> artificial sequence<220><223> peptide El- 12 
<400> 70 

Met Tyr ser Phe val Ser Glu Glu Thr Gly Thr Leu 
15 10 

<210> 71<211> 24<212> PRT<213> artificial sequence<220><223> peptide E53-72 

<400> 71 '«'- 

lvs Pro Thr val Tyr val Tyr ser Arg Val Lys Asn Leu Asn ser ser 

1 5 10 15 ?.' 

Glu Gly Val Pro Asp Leu Leu val 
20 

<210> 72<211> 153<212> DNA<213> CORONAVIRUS<400> 72 

gatattaggt ttttacctac ccaggaaaag ccaaccaacc tcgatctctt gtagatctgt bO 

tctctaaacg aactttaaaa tctgtgtagc tgtcgctcgg ctgcatgcct agtgcaccta 120 
cgcagtataa acaataataa attttactgt cgt 153 

<210> 73<211> 410<212> DNA<213> CORONAVIRUS<400> 73 

ttctccagac aacttcaaaa ttccatgagt ggagcttctg ctgattcaac tcaggcataa 60 

acactcatga tgaccacaca aggcagatgg gctatgtaaa cgttttcgca attccgttta 120 

cgatacatag tctactcttg tgcagaatga attctcgtaa ctaaacagca caagtaggtt 180 

tagttaactt taatctcaca tagcaatctt taatcaatgt gtaacattag ggaggacttg 240 

aaagagccac cacattttca tcgaggccac gcggagtacg atcgagggta cagtgaataa 300 

tgctagggag agctgcctat atggaagagc cctaatgtgt aaaattaatt ttagtagtgc 360 

tatccccatg tgattttaat agcttcttag gagaatgaca aaaaaaaaaa 410 

<210> 74<211> 4382<212> PRT<213> CORONAVIRUS<400> 74 
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Met Glu ser Leu val Leu Gly val Asn Glu Lys Thr His Val Gin Leu 
1 5 10 15 

ser Leu Pro val Leu Gin Val Arg Asp val Leu Val Arg Gly Phe Gly 
20 25 30 

Asp ser val Glu Glu Ala Leu Ser Glu Ala Arg Glu His Leu Lys Asn 
35 40 45 

Gly Thr Cys Gly Leu val Glu Leu Glu Lys Gly val Leu Pro Gin Leu 
50 55 60 

Glu Gin Pro Tyr Val Phe Tie Lys Arg ser Asp Ala Leu Ser Thr Asn 
65 70 75 80 

His Gly His Lys Val Val Glu Leu val Ala Glu Met Asp Gly lie Gin 
85 90 95 

Tyr Gly Arg Ser Gly lie Thr Leu Gly Val Leu Val Pro His Val Gly 
100 105 110 

Glu Thr Pro lie Ala Tyr Arg Asn Val Leu Leu Arg Lys Asn Gly Asn 
115 120 125 

Lys Gly Ala Gly Gly His ser Tyr Gly lie Asp Leu Lys Ser Tyr Asp 
130 135 140 

Leu Gly Asp Glu Leu Gly Thr Asp Pro lie Glu Asp Tyr Glu Gin Asn 
145 150 155 160 

Trp Asn Thr Lys His Gly ser Gly Ala Leu Arg Glu Leu Thr Arg Glu 
165 170 175 

Leu Asn Gly Gly Ala val Thr Arg Tyr val Asp Asn Asn Phe cys Gly 
180 185 190 

pro Asp Gly Tyr Pro Leu Asp Cys lie Lys Asp Phe Leu Ala Arg Ala 
195 200 205 

Gly Lys ser Met Cys Thr Leu Ser Glu Gin Leu Asp Tyr lie Glu Ser 
y 210 215 220 

Lys Arg Gly val Tyr Cys Cys Arg Asp His Glu His Glu lie Ala Trp 
225 230 235 240 

Phe Thr Glu Arg Ser Asp Lys Ser Tyr Glu His Gin Thr Pro Phe Glu 
245 250 255 

lie Lys ser Ala Lys Lys phe Asp Thr Phe Lys Gly Glu cys Pro Lys 
260 265 270 
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phe val Phe Pro Leu Asn Ser Lys Val Lys val lie Gin Pro Arg Val 
275 280 285 

Glu Lys Lys Lys Thr Glu Gly phe Met Gly Arg lie Arg Ser Val Tyr 
290 295 ~ 300 

Pro Val Ala Ser Pro Gin Glu cys Asn Asn Met His Leu ser Thr Leu 
305 310 315 320 

Met Lys Cys Asn His cys Asp Glu val Ser Trp Gin Thr cys Asp Phe 
325 330 335 

Leu Lys Ala Thr cys Glu His Cys Gly Thr Glu Asn Leu val lie Glu 
340 345 350 

Gly Pro Thr Thr cys Gly Tyr Leu Pro Thr Asn Ala Val val Lys Met 
355 360 365 

Pro Cys Pro Ala cys Gin Asp Pro Glu lie Gly pro Glu His ser val 
370 375 380 

Ala Asp Tyr His Asn His Ser Asn He Glu Thr Arg Leu Arg Lys Gly 
385 390 395 400 

Gly Arg Thr Arg Cys Phe Gly Gly Cys Val Phe Ala Tyr Val Gly Cys 
405 410 415 

Tyr Asn Lys Arg Ala Tyr Trp val Pro Arg Ala ser Ala Asp lie Gly 
420 425 430 

Ser Gly His Thr Gly lie Thr Gly Asp Asn Val Glu Thr Leu Asn Glu 
435 440 445 

Asp Leu Leu Glu lie Leu Ser Arg Glu Arg Val Asn lie Asn lie val 
450 455 460 

Gly Asp Phe His Leu Asn Glu Glu val Ala lie lie Leu Ala ser Phe 
465 470 475 480 

Ser Ala Ser Thr Ser Ala Phe lie Asp Thr lie Lys Ser Leu Asp Tyr 
485 490 495 

Lys Ser Phe Lys Thr lie Val Glu Ser Cys Gly Asn Tyr Lys Val Thr 
500 505 510 

Lys Gly Lys Pro val Lys Gly Ala Trp Asn lie Gly Gin Gin Arg ser 
515 520 525 

Val Leu Thr Pro Leu cys Gly Phe Pro Ser Gin Ala Ala Gly val lie 
530 535 540 

Page 77 



S226CAS111.ST25 

Arg ser He Phe Ala Arg Thr Leu Asp Ala Ala Asn His Ser He Pro 
545 550 555 -» ou 

Asp Leu Gin Arg Ala Ala Val Thr lie Leu Asp Gly lie Ser Glu Gin 
565 570 -> /:> 

ser Leu Arg Leu val Asp Ala Met val Tyr Thr ser Asp Leu Leu Thr 
580 585 -> yu 

Asn ser Val He lie Met Ala Tyr Val Thr Gly Gly Leu val Gin Gin 
595 600 605 

Thr Ser Gin Trp Leu Ser Asn Leu Leu Gly Thr Thr Val Glu Lys Leu 
610 615 620 

Arg Pro lie Phe Glu Trp lie Glu Ala Lys Leu Ser Ala Gly val Glu 
625 630 635 640 

phe Leu Lys Asp Ala Trp Glu He Leu Lys Phe Leu He Thr Gly val 
645 650 655 

Phe Asp He val Lys Gly Gin He Gin Val Ala Ser Asp Asn He Lys 
660 665 670 

Asp cys Val Lys Cys Phe lie Asp Val Val Asn Lys Ala Leu Glu Met 
675 680 685 

Cys He Asp Gin Val Thr lie Ala Gly Ala Lys Leu Arg Ser Leu Asn 
690 695 700 

Leu Gly Glu val Phe lie Ala Gin Ser Lys Gly Leu Tyr Arg Gin Cys 
705 710 715 720 

He Arg Gly Lys Glu Gin Leu Gin Leu Leu Met Pro Leu Lys Ala Pro 

Lys Glu val Thr Phe Leu Glu Gly Asp Ser His Asp Thr val Leu Thr 
740 745 750 

Ser Glu Glu val val Leu Lys Asn Gly Glu Leu Glu Ala Leu Glu Thr 
755 760 765 

pro Val Asp Ser Phe Thr Asn Gly Ala lie Val Gly Thr Pro val cys 
770 775 780 

val Asn Gly Leu Met Leu Leu Glu He Lys Asp Lys Glu Gin Tyr cys 
785 790 795 800 

Ala Leu Ser Pro Gly Leu Leu Ala Thr Asn Asn Val Phe Arg Leu Lys 
805 810 815 
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Gly Gly Ala Pro He Lys Gly val Thr Phe Gly Glu Asp Thr val Trp 
820 825 830 

Glu Val Gin Gly Tyr Lys Asn Val Arg lie Thr Phe Glu Leu Asp Glu 
835 840 845 

Arg Val Asp Lys Val Leu Asn Glu Lys Cys Ser Val Tyr Thr val Glu 
850 855 860 

ser Gly Thr Glu Val Thr Glu Phe Ala cys Val Val Ala Glu Ala val 
865 870 875 880 

val Lys Thr Leu Gin Pro val ser Asp Leu Leu Thr Asn Met Gly lie 
885 890 895 

Asp Leu Asp Glu Trp ser val Ala Thr Phe Tyr Leu Phe Asp Asp Ala 
900 905 910 

Gly Glu Glu Asn Phe ser Ser Arg Met Tyr Cys ser Phe Tyr Pro Pro 
915 920 925 

Asp Glu Glu Glu Glu Asp Asp Ala Glu cys Glu Glu Glu Glu lie Asp 
930 935 940 

Glu Thr Cys Glu His Glu Tyr Gly Thr Glu Asp Asp Tyr Gin Gly Leu 
945 950 955 960 

Pro Leu Glu Phe Gly Ala Ser Ala Glu Thr val Arg Val Glu Glu Glu 
965 970 975 

Glu Glu Glu Asp Trp Leu Asp Asp Thr Thr Glu Gin Ser Glu lie Glu 
980 985 990 

Pro Glu Pro Glu Pro Thr Pro Glu Glu Pro val Asn Gin Phe Thr Gl 
995 1000 1005 

Tyr Leu Lys Leu Thr Asp Asn val Ala lie Lys cys Val Asp lie 
1010 1015 1020 

Val Lys Glu Ala Gin Ser Ala Asn Pro Met Val lie val Asn Ala 
1025 1030 1035 

Ala Asn lie His Leu Lys His Gly Gly Gly val Ala Gly Ala Leu 
1040 1045 1050 

Asn Lys Ala Thr Asn Gly Ala Met Gin Lys Glu ser Asp Asp Tyr 
1055 1060 1065 

lie Lys Leu Asn Gly Pro Leu Thr Val Gly Gly Ser Cys Leu Leu 
1070 1075 1080 

Page 79 



S226CAS111.ST25 

ser Gly His Asn Leu Ala Lys Lys Cys Leu His VaJ val Gly Pro 
1085 1090 • LU3:> 

Asn Leu Asn Ala Gly Glu Asp He Gin Leu Leu Lys Ala Ala Tyr 
1100 1105 J " L 

Glu Asn Phe Asn ser Gin Asp He Leu Leu Ala Pro Leu Leu Ser 
1115 1120 H2 a 

Ala Gly He Phe Gly Ala Lys Pro Leu Gin ser Leu Gin Val Cys 
1130 1135 U 40 

val Gin Thr val Arg Thr Gin Val Tyr lie Ala val Asn Asp Lys 
1145 1150 H55 

Ala Leu Tyr Glu Gin val val Met Asp Tyr Leu Asp Asn Leu Lys 
1160 1165 II 70 

Pro Arg val Glu Ala Pro Lys Gin Glu Glu Pro Pro Asn Thr Glu 
11=75 1180 1185 

Asp ser Lys Thr Glu Glu Lys Ser Val Val Gin Lys Pro val Asp 
1190 1195 J-^ uu 

val Lys Pro Lys He Lys Ala Cys He Asp Glu val Thr Thr Thr 
1205 1210 1215 

Leu Glu Glu Thr Lys Phe Leu Thr Asn Lys Leu Leu Leu Phe Ala 
1220 1225 1230 

Asp lie Asn Gly Lys Leu Tyr His Asp ser Gin Asn Met Leu Arg 
1235 1240 1245 

Gly Glu Asp Met ser Phe Leu Glu Lys Asp Ala Pro Tyr Met val 
3 1250 1255 1260 

Gly Asp val lie Thr ser Gly Asp lie Thr Cys val Val lie Pro 
1265 1270 1275 

ser Lys Lys Ala Gly Gly Thr Thr Glu Met Leu ser Arg Ala Leu 
1280 1285 

Lys Lys val Pro val Asp Glu Tyr lie Thr Thr Tyr Pro Gly Gin 
* 1295 1300 1305 

Gly Cys Ala Gly Tyr Thr Leu Glu Glu Ala Lys Thr Ala Leu Lys 
1§10 1315 1320 

Lys cys Lys ser Ala Phe Tyr Val Leu Pro Ser Glu Ala Pro Asn 
3 1325 1330 1335 
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Ala Lys Glu Glu lie Leu Gly Thr Val ser Trp Asn Leu Arg Glu 
1340 1345 1350 

Met Leu Ala His Ala Glu Glu Thr Arg Lys Leu Met Pro lie cys 
1355 1360 1365 

Met Asp val Arg Ala lie Met Ala Thr lie Gin Arg Lys Tyr Lys 
1370 1375 1380 

Gly He Lys He Gin Glu Gly lie Val Asp Tyr Gly val Arg Phe 
1385 1390 1395 

phe Phe Tyr Thr ser Lys Glu Pro Val Ala ser lie lie Thr Lys 
1400 1405 1410 

Leu Asn ser Leu Asn Glu Pro Leu Val Thr Met Pro lie Gly Tyr 
1415 1420 1425 

Val Thr His Gly Phe Asn Leu Glu Glu Ala Ala Arg cys Met Arg 
1430 1435 1440 

Ser Leu Lys Ala Pro Ala val Val ser Val Ser Ser Pro Asp Ala 
1445 1450 1455 

val Thr Thr Tyr Asn Gly Tyr Leu Thr Ser Ser Ser Lys Thr Ser 
1460 1465 1470 

Glu Glu His Phe val Glu Thr val Ser Leu Ala Gly Ser Tyr Arg 
1475 1480 1485 

Asp Trp ser Tyr Ser Gly Gin Arg Thr Glu Leu Gly val Glu Phe 
1490 1495 1500 

Leu Lys Arg Gly Asp Lys lie Val Tyr His Thr Leu Glu Ser Pro 
1505 1510 1515 

val Glu Phe His Leu Asp Gly Glu Val Leu Ser Leu Asp Lys Leu 
1520 1525 1530 

Lys Ser Leu Leu Ser Leu Arg Glu Val Lys Thr lie Lys val Phe 
1535 1540 1545 

Thr Thr Val Asp Asn Thr Asn Leu His Thr Gin Leu Val Asp Met 
1550 1555 1560 

Ser Met Thr Tyr Gly Gin Gin Phe Gly Pro Thr Tyr Leu Asp Gly 
1565 1570 1575 

Ala Asp val Thr Lys lie Lys Pro His val Asn His Glu Gly Lys 
1580 1585 1590 
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Thr Phe Phe val Leu Pro Ser Asp Asp Thr Leu Arg Ser Glu Ala 
1595 1600 1605 

Phe Glu Tyr Tyr His Thr Leu Asp Glu Ser Phe Leu Gly Arg Tyr 
1610 1615 1620 

Met Ser Ala Leu Asn His Thr Lys Lys Trp Lys Phe Pro Gin Val 
1625 1630 1635 

Gly Gly Leu Thr Ser He Lys Trp Ala Asp Asn Asn cys Tyr Leu 
1640 1645 1650 

Ser Ser val Leu Leu Ala Leu Gin Gin Leu Glu val Lys Phe Asn 
1655 1660 1665 

Ala Pro Ala Leu Gin Glu Ala Tyr Tyr Arg Ala Arg Ala Gly Asp 
1670 1675 1680 

Ala Ala Asn Phe cys Ala Leu lie Leu Ala Tyr Ser Asn Lys Thr 
1685 1690 1695 

val Gly Glu Leu Gly Asp val Arg Glu Thr Met Thr His Leu Leu 
1700 1705 1710 

Gin His Ala Asn Leu Glu Ser Ala Lys Arg val Leu Asn Val Val 
1715 1720 1725 

Cys Lys His cys Gly Gin Lys Thr Thr Thr Leu Thr Gly val Glu 
1730 1735 1740 

Ala val Met Tyr Met Gly Thr Leu ser Tyr Asp Asn Leu Lys Thr 
1745 1750 1755 

Gly val Ser lie Pro Cys val cys Gly Arg Asp Ala Thr Gin Tyr 
1760 1765 1770 

Leu Val Gin Gin Glu Ser ser Phe val Met Met ser Ala Pro Pro 
1775 1780 1785 

Ala Glu Tyr Lys Leu Gin Gin Gly Thr Phe Leu cys Ala Asn Glu 
1790 1795 1800 

Tyr Thr Gly Asn Tyr Gin cys Gly His Tyr Thr His lie Thr Ala 
1805 1810 1815 

Lys Glu Thr Leu Tyr Arg lie Asp Gly Ala His Leu Thr Lys Met 
1820 1825 1830 

ser Glu Tyr Lys Gly Pro Val Thr Asp Val Phe Tyr Lys Glu Thr 
1835 1840 1845 
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ser Tyr Thr Thr Thr He Lys Pro Val ser Tyr Lys Leu Asp Gly 
1850 1855 I860 

Val Thr Tyr Thr Glu lie Glu Pro Lys Leu Asp Gly Tyr Tyr Lys 
1865 1870 1875 

Lys Asp Asn Ala Tyr Tyr Thr Glu Gin Pro lie Asp Leu Val Pro 
1880 1885 1890 

Thr Gin Pro Leu Pro Asn Ala ser Phe Asp Asn Phe Lys Leu Thr 
1895 1900 1905 

Cys Ser Asn Thr Lys Phe Ala Asp Asp Leu Asn Gin Met Thr Gly 
1910 1915 1920 

Phe Thr Lys Pro Ala Ser Arg Glu Leu Ser Val Thr Phe Phe Pro 
1925 1930 1935 

Asp Leu Asn Gly Asp val val Ala He Asp Tyr Arg His Tyr ser 
1940 1945 1950 

Ala ser Phe Lys Lys Gly Ala Lys Leu Leu His Lys Pro lie Val 
1955 1960 1965 

Trp His lie Asn Gin Ala Thr Thr Lys Thr Thr Phe Lys Pro Asn 
1970 1975 1980 

Thr Trp cys Leu Arg cys Leu Trp Ser Thr Lys Pro Val Asp Thr 
1985 1990 1995 

Ser Asn ser Phe Glu val Leu Ala val Glu Asp Thr Gin Gly Met 
2000 2005 2010 

Asp Asn Leu Ala cys Glu ser Gin Gin Pro Thr ser Glu Glu val 
2015 2020 2025 

Val Glu Asn Pro Thr lie Gin Lys Glu val lie Glu cys Asp Val 
2030 2035 2040 

Lys Thr Thr Glu val val Gly Asn Val lie Leu Lys Pro Ser Asp 
2045 2050 2055 

Glu Gly val Lys val Thr Gin Glu Leu Gly His Glu Asp Leu Met 
2060 2065 2070 

Ala Ala Tyr Val Glu Asn Thr Ser lie Thr lie Lys Lys Pro Asn 
2075 2080 2085 

Glu Leu Ser Leu Ala Leu Gly Leu Lys Thr lie Ala Thr His Gly 
2090 2095 2100 
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He Ala Ala lie Asn ser val Pro Trp Ser Lys lie Leu Ala Tyr 
2105 2110 2115 

val Lys Pro Phe Leu Gly Gin Ala Ala He Thr Thr ser Asn Cys 
2120 2125 2130 

Ala Lys Arg Leu Ala Gin Arg Val Phe Asn Asn Tyr Met Pro Tyr 
2135 2140 2145 

val Phe Thr Leu Leu Phe Gin Leu Cys Thr Phe Thr Lys ser Thr 
2150 2155 21bU 

Asn Ser Arg lie Arg Ala ser Leu Pro Thr Thr lie Ala Lys Asn 
2165 2170 2175 

Ser Val Lys ser Val Ala Lys Leu cys Leu Asp Ala Gly lie Asn 
2180 2185 2190 

Tyr val Lys Ser Pro Lys Phe Ser Lys Leu Phe Thr lie Ala Met 
2195 2200 2205 

Trp Leu Leu Leu Leu Ser lie Cys Leu Gly ser Leu lie cys val 
2210 2215 2220 

Thr Ala Ala phe Gly Val Leu Leu Ser Asn Phe Gly Ala Pro ser 
2225 2230 2235 

Tyr cys Asn Gly val Arg Glu Leu Tyr Leu Asn Ser Ser Asn Val 
y 2240 2245 2250 

Thr Thr Met Asp Phe cys Glu Gly ser Phe Pro Cys Ser He cys 
2255 2260 2265 

Leu Ser Gly Leu Asp Ser Leu Asp ser Tyr Pro Ala Leu Glu Thr 
2270 2275 2280 

He Gin Val Thr lie ser Ser Tyr Lys Leu Asp Leu Thr lie Leu 
2285 2290 2295 

Gly Leu Ala Ala Glu Trp val Leu Ala Tyr Met Leu Phe Thr Lys 
2300 2305 2310 

Phe Phe Tyr Leu Leu Gly Leu ser Ala lie Met Gin Val Phe Phe 
2315 2320 2325 

Gly Tyr Phe Ala Ser His Phe lie Ser Asn Ser Trp Leu Met Trp 
2330 2335 2340 

Phe He He ser lie val Gin Met Ala Pro val Ser Ala Met val 
2345 2350 2355 
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Arg Met Tyr lie Phe Phe Ala Ser Phe Tyr Tyr He Trp Lys ser 
2360 2365 2370 

Tyr val His lie Met Asp Gly Cys Thr Ser Ser Thr cys Met Met 
2375 2380 2385 

Cys Tyr Lys Arg Asn Arg Ala Thr Arg Val Glu Cys Thr Thr lie 
2390 2395 2400 

Val Asn Gly Met Lys Arg ser Phe Tyr val Tyr Ala Asn Gly Gly 
2405 2410 2415 

Arg Gly Phe Cys Lys Thr His Asn Trp Asn cys Leu Asn cys Asp 
2420 2425 2430 

Thr Phe Cys Thr Gly Ser Thr Phe lie Ser Asp Glu val Ala Arg 
2435 2440 2445 

Asp Leu Ser Leu Gin Phe Lys Arg Pro lie Asn Pro Thr Asp Gin 
2450 2455 ~ 2460 

Ser ser Tyr lie Val Asp Ser Val Ala Val Lys Asn Gly Ala Leu 
2465 2470 2475 

His Leu Tyr Phe Asp Lys Ala Gly Gin Lys Thr Tyr Glu Arg His 
2480 2485 2490 

Pro Leu ser His Phe val Asn Leu Asp Asn Leu Arg Ala Asn Asn 
2495 2500 2505 

Thr Lys Gly ser Leu Pro lie Asn Val lie Val Phe Asp Gly Lys 
2510 2515 2520 

ser Lys Cys Asp Glu ser Ala ser Lys Ser Ala Ser val Tyr Tyr 
2525 2530 2535 

Ser Gin Leu Met cys Gin Pro lie Leu Leu Leu Asp Gin Ala Leu 
2540 2545 2550 

val Ser Asp val Gly Asp ser Thr Glu val Ser Val Lys Met Phe 
2555 2560 2565 

Asp Ala Tyr val Asp Thr Phe ser Ala Thr Phe ser val Pro Met 
2570 2575 2580 

Glu Lys Leu Lys Ala Leu val Ala Thr Ala His ser Glu Leu Ala 
2585 2590 2595 

Lys Gly val Ala Leu Asp Gly val Leu Ser Thr Phe val ser Ala 
2600 2605 2610 

Page 85 



S226CAS111.ST25 

Ala Arg Gin Gly Val val Asp Thr Asp val Asp Thr Lys Asp val 
2615 2620 £k>£\> 

He Glu cys Leu Lys Leu Ser His His Ser Asp Leu Glu val Thr 
2630 2635 2640 

Gly Asp Ser cys Asn Asn Phe Met Leu Thr Tyr Asn Lys val Glu 
2645 2650 2655 

Asn Met Thr Pro Arg Asp Leu Gly Ala cys He Asp Cys Asn Ala 
2660 2665 2670 

Arg His He Asn Ala Gin Val Ala Lys Ser His Asn val Ser Leu 
2675 2680 2685 

lie Trp Asn val Lys Asp Tyr Met ser Leu ser Glu Gin Leu Arg 
2690 2695 2700 

Lys Gin He Arg ser Ala Ala Lys Lys Asn Asn lie Pro Phe Arg 
2705 2710 2715 

Leu Thr cys Ala Thr Thr Arg Gin val val Asn val lie Thr Thr 
2720 2725 2730 

Lys He ser Leu Lys Gly Gly Lys lie val Ser Thr Cys Phe Lys 
2735 2740 2745 

Leu Met Leu Lys Ala Thr Leu Leu Cys val Leu Ala Ala Leu Val 
2750 2755 2760 

Cvs Tyr lie val Met Pro Val His Thr Leu ser lie His Asp Gly 
y 2765 2770 2775 

Tyr Thr Asn Glu lie lie Gly Tyr Lys Ala He Gin Asp Gly val 
2780 2785 2790 

Thr Arg Asp lie lie ser Thr Asp Asp Cys Phe Ala Asn Lys His 
2795 2800 2805 

Ala Gly Phe Asp Ala Trp Phe Ser Gin Arg Gly Gly ser Tyr Lys 
2810 2815 2820 

Asn Asp Lys ser cys Pro val val Ala Ala lie lie Thr Arg Glu 
2825 2830 2835 

He Gly Phe He val Pro Gly Leu Pro Gly Thr val Leu Arg Ala 
2840 2845 Z8:>0 

He Asn Gly Asp Phe Leu His Phe Leu Pro Arg val Phe Ser Ala 
2855 2860 2865 
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Val 52^ Asn 11 e T ^ r Thr Pro ser L y s Leu He Glu Tyr ser 
2870 2875 2880 

Asp Ala Thr Ser Ala C V S Val Leu Ala Ala Glu Cys Thr He 

2885 2890 2895 

Phe VXL Asp Ala Met Gl y L ^ s Pro Val Pro Tyr Cys Tyr Asp Thr 
2900 2905 2910 

Asn k^ic Leu Glu Gly Ser Ile Ser T y p Ser Glu Leu Arg Pro Asp 
2915 2920 2925 

Thr oo?n Tyr Val Leu Met AS P Gl y ser 11 e He Gin Phe Pro Asn 
2930 2935 2940 

Thr 1^. LeU Glu Gly Ser Y a L Ar 9 Val val Thr Thr Phe Asp Ala 
2945 2950 2955 

Glu Ta"£a Cys Arg His Gl y Thr c y s Glu Arg Ser Glu Val Gly He 
29o0 2965 2970 

CyS 007c Ser Thr Ser Gly Ar 9 Tr P Val Leu Asn Asn Glu His Tyr 
2975 2980 2985 

Arg ?lan LeU Ser Gly Va1 ?i!S cys Gly Val Asp Ala Met Asn Leu 
2990 2995 3000 

11 e Aj<j 5 Asn lie Phe Thr Pro^ Leu Val Gin Pro val^ Gly Ala Leu 

ASP Xnln Ser Ala Ser Val 5&L Ala Gly Gly. lie He Ala He Leu 
5010 3025 3030 

Va1 In?c Cys Ala Ala Tyr T y p Phe Met L y s p he Arg Arg Val Phe 
^035 3040 3045 

Gly Saca Tyr Asn His va1 Val Ala Ala Asn Ala Leu Leu Phe Leu 
3050 3055 3060 

Met Ia£c Phe Thr 11 e Leu c y s Leu Val Pro Ala Tyr ser Phe Leu 
^ubi) 3070 3075 

PF ° fnXn Val TyP Ser Val SfiSr Tyr Leu Tyr Leu Thr phe T y^ p he 
3080 3085 3090 

Thr ^aac Asp Val Ser phe Leu Ala His Leu Gin Trp Phe Ala Met 
3095 3100 3105 

Phe ser Pro lie val Pro Phe Trp Ile Thr Ala lie Tyr Val phe 
3110 3115 3120 
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cys lie Ser Leu Lys His cys His Trp Phe Phe Asn Asn Tyr Leu 
3125 3130 3135 

Arg Lys Arg Val Met Phe Asn Gly val Thr phe ser Thr Phe Glu 
3140 3145 3150 

Glu Ala Ala Leu cys Thr Phe Leu Leu Asn Lys Glu Met Tyr Leu 
3155 3160 3165 

Lys Leu Arg ser Glu Thr Leu Leu Pro Leu Thr Gin Tyr Asn Arg 
3170 3175 3180 

Tyr Leu Ala Leu Tyr Asn Lys Tyr Lys Tyr Phe ser Gly Ala Leu 
3185 3190 3195 

Asp Thr Thr ser Tyr Arg Glu Ala Ala Cys Cys His Leu Ala Lys 
3200 3205 3210 

Ala Leu Asn Asp Phe Ser Asn ser Gly Ala Asp Val Leu Tyr Gin 
3215 3220 3225 

Pro Pro Gin Thr Ser lie Thr ser Ala val Leu Gin Ser Gly Phe 
3230 3235 3240 

Arg Lys Met Ala Phe Pro Ser Gly Lys val Glu Gly Cys Met Val 
3245 3250 3255 

Gin val Thr Cys Gly Thr Thr Thr Leu Asn Gly Leu Trp Leu Asp 
3260 3265 3270 

Asp Thr val Tyr Cys Pro Arg His val lie cys Thr Ala Glu Asp 
3275 3280 3285 

Met Leu Asn Pro Asn Tyr Glu Asp Leu Leu lie Arg Lys Ser Asn 
3290 3295 3300 

His Ser Phe Leu val Gin Ala Gly Asn val Gin Leu Arg Val lie 
3305 3310 3315 

Gly His Ser Met Gin Asn cys Leu Leu Arg Leu Lys val Asp Thr 
3320 3325 3330 

Ser Asn Pro Lys Thr Pro Lys Tyr Lys phe val Arg lie Gin Pro 
3335 3340 3345 

Gly Gin Thr Phe Ser val Leu Ala Cys Tyr Asn Gly Ser Pro Ser 
3350 3355 3360 

Gly val Tyr Gin cys Ala Met Arg Pro Asn His Thr lie Lys Gly 
3365 3370 3375 
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Ser phe Leu Asn Gly ser cys Gly Ser Val Gly Phe Asn He Asp 
3380 3385 3390 

Tyr Asp cys val ser Phe cys Tyr Met His His Met Glu Leu Pro 
3395 3400 3405 

Thr Gly Val His Ala Gly Thr Asp Leu Glu Gly Lys Phe Tyr Gly 
3410 3415 3420 

Pro Phe Val Asp Arg Gin Thr Ala Gin Ala Ala Gly Thr Asp Thr 
3425 3430 3435 

Thr lie Thr Leu Asn val Leu Ala Trp Leu Tyr Ala Ala val lie 
3440 3445 3450 

Asn Gly Asp Arg Trp Phe Leu Asn Arg Phe Thr Thr Thr Leu Asn 
3455 3460 ~ 3465 

Asp Phe Asn Leu val Ala Met Lys Tyr Asn Tyr Glu Pro Leu Thr 
3470 3475 3480 

Gin Asp His Val Asp He Leu Gly Pro Leu Ser Ala Gin Thr Gly 
3485 3490 3495 

lie Ala Val Leu Asp Met Cys Ala Ala Leu Lys Glu Leu Leu Gin 
3500 3505 3510 

Asn Gly Met Asn Gly Arg Thr lie Leu Gly Ser Thr lie Leu Glu 
3515 3520 3525 

Asp Glu Phe Thr Pro Phe Asp val val Arg Gin cys ser Gly val 
3530 3535 3540 

Thr Phe Gin Gly Lys Phe Lys Lys lie val Lys Gly Thr His His 
3545 3550 3555 

Trp Met Leu Leu Thr Phe Leu Thr Ser Leu Leu lie Leu val Gin 
3560 3565 3570 

Ser Thr Gin Trp ser Leu Phe Phe Phe Val Tyr Glu Asn Ala Phe 
3575 3580 3585 

Leu Pro Phe Thr Leu Gly lie Met Ala lie Ala Ala Cys Ala Met 
3590 3595 3600 

Leu Leu Val Lys His Lys His Ala Phe Leu Cys Leu Phe Leu Leu 
3605 3610 3615 

Pro ser Leu Ala Thr val Ala Tyr phe Asn Met Val Tyr Met pro 
3620 3625 3630 
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Ala ser Trp val Met Arg lie Met Thr Trp Leu Glu Leu Ala Asp 
3635 3640 3645 

Thr ser Leu ser Gly Tyr Arg Leu Lys Asp cys Val Met Tyr Ala 
3650 3655 3660 

Ser Ala Leu val Leu Leu He Leu Met Thr Ala Arg Thr val Tyr 
3665 3670 3675 

Asp Asp Ala Ala Arg Arg Val Trp Thr Leu Met Asn val lie Thr 
3680 3685 3690 

Leu val Tyr Lys val Tyr Tyr Gly Asn Ala Leu Asp Gin Ala lie 
3695 ' 3700 3705 

Ser Met Trp Ala Leu Val lie ser Val Thr Ser Asn Tyr Ser Gly 
3710 3715 3720 

val val Thr Thr He Met Phe Leu Ala Arg Ala lie val Phe Val 
3725 3730 3735 

Cvs Val Glu Tyr Tyr Pro Leu Leu Phe lie Thr Gly Asn Thr Leu 
3 3740 3745 3750 

Gin Cys He Met Leu val Tyr cys Phe Leu Gly Tyr cys Cys cys 
3755 3760 3765 

Cys Tyr Phe Gly Leu Phe Cys Leu Leu Asn Arg Tyr Phe Arg Leu 
3770 3775 3780 

Thr Leu Gly Val Tyr Asp Tyr Leu val ser Thr Gin Glu Phe Arg 
3785 3790 3795 

Tyr Met Asn ser Gin Gly Leu Leu Pro Pro Lys Ser ser lie Asp 
y 3800 3805 3810 

Ala Phe Lys Leu Asn He Lys Leu Leu Gly lie Gly Gly Lys Pro 
3815 3820 3825 

Cys lie Lys Val Ala Thr Val Gin ser Lys Met ser Asp val Lys 
3830 3835 3840 

cys Thr ser val val Leu Leu Ser val Leu Gin Gin Leu Arg val 
3845 3850 3855 

Glu Ser ser Ser Lys Leu Trp Ala Gin cys val Gin Leu His Asn 
3860 * 3865 3870 

Asp He Leu Leu Ala Lys Asp Thr Thr Glu Ala Phe Glu Lys Met 
3875 3880 3885 
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val ser Leu Leu Ser Val Leu Leu Ser Met Gin Gly Ala val Asp 
3890 3895 3900 

He Asn Arg Leu cys Glu Glu Met Leu Asp Asn Arg Ala Thr Leu 
3905 ' 3910 3915 

Gin Ala lie Ala Ser Glu Phe ser Ser Leu Pro Ser Tyr Ala Ala 
3920 3925 3930 

Tyr Ala Thr Ala Gin Glu Ala Tyr Glu Gin Ala Val Ala Asn Gly 
3935 3940 3945 

Asp Ser Glu val val Leu Lys Lys Leu Lys Lys ser Leu Asn val 
3950 3955 3960 

Ala Lys Ser Glu Phe Asp Arg Asp Ala Ala Met Gin Arg Lys Leu 
3965 3970 3975 

Glu Lys Met Ala Asp Gin Ala Met Thr Gin Met Tyr Lys Gin Ala 
3980 3985 3990 

Arq ser Glu Asp Lys Arg Ala Lys Val Thr Ser Ala Met Gin Thr 
y 3995 4000 4005 

Met Leu Phe Thr Met Leu Arg Lys Leu Asp Asn Asp Ala Leu Asn 
4010 4015 4020 

Asn lie lie Asn Asn Ala Arg Asp Gly Cys Val Pro Leu Asn lie 
4025 4030 4035 

He Pro Leu Thr Thr Ala Ala Lys Leu Met val val Val Pro Asp 
4040 4045 4050 

Tyr Gly Thr Tyr Lys Asn Thr Cys Asp Gly Asn Thr Phe Thr Tyr 
4055 4060 4065 

Ala Ser Ala Leu Trp Glu lie Gin Gin val val Asp Ala Asp Ser 
4070 4075 4080 

Lys lie Val Gin Leu Ser Glu lie Asn Met Asp Asn ser Pro Asn 
4085 4090 4095 

Leu Ala Trp Pro Leu lie Val Thr Ala Leu Arg Ala Asn Ser Ala 
4100 4105 4110 

Val Lys Leu Gin Asn Asn Glu Leu ser Pro val Ala Leu Arg Gin 
4115 4120 4125 

Met ser Cys Ala Ala Gly Thr Thr Gin Thr Ala cys Thr Asp Asp 
4130 4135 4140 
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Asn Ala Leu Ala Tyr Tyr Asn Asn ser Lys Gly Gly Arg Phe Val 
4145 4150 4155 

Leu Ala Leu Leu ser Asp His Gin Asp Leu Lys Trp Ala Arg Phe 
4160 4165 4170 

pro Lys Ser Asp Gly Thr Gly Thr He Tyr Thr Glu Leu Glu Pro 
4175 4180 4185 

pro cys Arg Phe val Thr Asp Thr Pro Lys Gly Pro Lys Val Lys 
4190 4195 4200 

Tyr Leu Tyr Phe lie Lys Gly Leu Asn Asn Leu Asn Arg Gly Met 
4205 4210 4215 

val Leu Gly ser Leu Ala Ala Thr val Arg Leu Gin Ala Gly Asn 
4220 4225 4230 

Ala Thr Glu Val Pro Ala Asn ser Thr val Leu Ser Phe Cys Ala 
4235 4240 4245 

Phe Ala val Asp Pro Ala Lys Ala Tyr Lys Asp Tyr Leu Ala ser 
4250 4255 4260 

Gly Gly Gin Pro lie Thr Asn Cys val Lys Met Leu cys Thr His 
4265 4270 4275 

Thr Gly Thr Gly Gin Ala lie Thr val Thr Pro Glu Ala Asn Met 
4280 4285 4290 

Asp Gin Glu ser Phe Gly Gly Ala Ser Cys Cys Leu Tyr Cys Arg 
4295 4300 4305 

Cys His lie Asp His Pro Asn Pro Lys Gly Phe Cys Asp Leu Lys 
4310 4315 4320 

Gly Lys Tyr val Gin lie Pro Thr Thr Cys Ala Asn Asp Pro val 
4325 4330 4335 

Gly Phe Thr Leu Arg Asn Thr val Cys Thr val Cys Gly Met Trp 
4340 4345 4350 

Lys Gly Tyr Gly cys Ser cys Asp Gin Leu Arg Glu Pro Leu Met 
4355 4360 4365 

Gin Ser Ala Asp Ala ser Thr Phe Leu Asn Gly Phe Ala val 
4370 4375 4380 

<210> 75<211> 2695<212> PRT<213> CORONAVIRUS<400> 75 

Arg Val cys Gly val ser Ala Ala Arg Leu Thr Pro cys Gly Thr Gly 
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1 5 10 15 

Thr ser Thr Asp Val val Tyr Arg Ala Phe Asp lie Tyr Asn Glu Lys 
20 25 30 

val Ala Gly Phe Ala Lys Phe Leu Lys Thr Asn cys cys Arg Phe Gin 
35 40 45 

Glu Lys Asp Glu Glu Gly Asn Leu Leu Asp ser Tyr Phe val val Lys 
50 55 60 

Arg His Thr Met Ser Asn Tyr Gin His Glu Glu Thr lie Tyr Asn Leu 
65 70 75 80 

Val Lys Asp cys Pro Ala val Ala val His Asp Phe Phe Lys Phe Arg 
85 90 95 

val Asp Gly Asp Met val Pro His He ser Arg Gin Arg Leu Thr Lys 
100 105 110 

Tyr Thr Met Ala Asp Leu Val Tyr Ala Leu Arg His Phe Asp Glu Gly 
115 120 125 

Asn cys Asp Thr Leu Lys Glu lie Leu Val Thr Tyr Asn Cys cys Asp 
130 135 140 

Asp Asp Tyr Phe Asn Lys Lys Asp Trp Tyr Asp Phe val Glu Asn Pro 
145 150 155 160 

Asp lie Leu Arg val Tyr Ala Asn Leu Gly Glu Arg val Arg Gin ser 
165 170 175 

Leu Leu Lys Thr val Gin Phe cys Asp Ala Met Arg Asp Ala Gly lie 
180 185 190 

val Gly Val Leu Thr Leu Asp Asn Gin Asp Leu Asn Gly Asn Trp Tyr 
195 200 205 

Asp Phe Gly Asp Phe val Gin Val Ala Pro Gly Cys Gly Val Pro lie 
210 215 220 

Val Asp Ser Tyr Tyr Ser Leu Leu Met Pro lie Leu Thr Leu Thr Arg 
225 230 235 240 

Ala Leu Ala Ala Glu Ser His Met Asp Ala Asp Leu Ala Lys Pro Leu 
245 250 255 

lie Lys Trp Asp Leu Leu Lys Tyr Asp Phe Thr Glu Glu Arg Leu cys 
260 265 270 

Leu Phe Asp Arg Tyr Phe Lys Tyr Trp Asp Gin Thr Tyr His Pro Asn 
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275 280 285 

cys He Asn cys Leu Asp Asp Arg cys lie Leu His cys Ala Asn Phe 
290 295 3UU 

Asn val Leu Phe ser Thr val Phe Pro Pro Thr Ser Phe Gly Pro Leu 
305 310 315 

val Arg Lys He Phe val Asp Gly val Pro Phe val val ser Thr Gly 
325 330 oj-> 

Tyr His Phe Arg Glu Leu Gly val val His Asn Gin Asp Val Asn Leu 

His ser ser Arg Leu Ser Phe Lys Glu Leu Leu val Tyr Ala Ala Asp 
355 360 ^t" 

Pro Ala Met His Ala Ala Ser Gly Asn Leu Leu Leu Asp Lys Arg Thr 
370 375 380 

Thr Cys Phe ser val Ala Ala Leu Thr Asn Asn val Ala Phe Gin Thr 
385 390 395 

val Lys Pro Gly Asn Phe Asn Lys Asp Phe Tyr Asp Phe Ala val ser 
405 410 *i:> 

Lys Gly Phe Phe Lys Glu Gly ser ser Val Glu Leu Lys His Phe Phe 
' 420 425 4: >u 

Phe Ala Gin Asp Gly Asn Ala Ala He Ser Asp Tyr Asp Tyr Tyr Arg 
435 440 

Tyr Asn Leu Pro Thr Met cys Asp He Arg Gin Leu Leu Phe val Val 
450 455 460 

Glu val val Asp Lys Tyr Phe Asp cys Tyr Asp Gly Gly cys He Asn 
465 470 475 ,6U 

Ala Asn Gin val He val Asn Asn Leu Asp Lys ser Ala Gly Phe Pro 
485 490 ^ y:> 

Phe Asn Lys Trp Gly Lys Ala Arg Leu Tyr Tyr Asp Ser Met ser Tyr 
500 505 *J-U 

Glu Asp Gin Asp Ala Leu Phe Ala Tyr Thr Lys Arg Asn val He pro 
515 520 525 

Thr He Thr Gin Met Asn Leu Lys Tyr Ala lie Ser Ala Lys Asn Arg 
530 535 540 

Ala Arg Thr val Ala Gly val Ser He cys ser Thr Met Thr Asn Arg 
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545 550 555 560 

Gin Phe His Gin Lys Leu Leu Lys Ser lie Ala Ala Thr Arg Gly Ala 
565 570 575 

Thr val Val lie Gly Thr Ser Lys Phe Tyr Gly Gly Trp His Asn Met 
580 585 590 

Leu Lys Thr val Tyr ser Asp val Glu Thr Pro His Leu Met Gly Trp 
595 600 605 

Asp Tyr Pro Lys Cys Asp Arg Ala Met Pro Asn Met Leu Arg lie Met 
610 615 620 

Ala ser Leu val Leu Ala Arg Lys His Asn Thr Cys cys Asn Leu Ser 
625 630 ~ 635 640 

His Arg Phe Tyr Arg Leu Ala Asn Glu cys Ala Gin Val Leu ser Glu 
645 650 655 

Met val Met Cys Gly Gly Ser Leu Tyr val Lys Pro Gly Gly Thr Ser 
660 665 670 

Ser Gly Asp Ala Thr Thr Ala Tyr Ala Asn Ser Val Phe Asn lie Cys 
675 680 685 

Gin Ala Val Thr Ala Asn val Asn Ala Leu Leu Ser Thr Asp Gly Asn 
690 695 700 

Lys lie Ala Asp Lys Tyr Val Arg Asn Leu Gin His Arg Leu Tyr Glu 
705 710 715 ~ 720 

Cys Leu Tyr Arg Asn Arg Asp val Asp His Glu Phe val Asp Glu Phe 
725 730 735 

Tyr Ala Tyr Leu Arg Lys His Phe Ser Met Met lie Leu Ser Asp Asp 
740 745 750 

Ala val val cys Tyr Asn ser Asn Tyr Ala Ala Gin Gly Leu val Ala 
755 760 765 

Ser lie Lys Asn Phe Lys Ala val Leu Tyr Tyr Gin Asn Asn val Phe 
770 775 780 

Met ser Glu Ala Lys cys Trp Thr Glu Thr Asp Leu Thr Lys Gly Pro 
785 790 795 800 

His Glu Phe Cys ser Gin His Thr Met Leu Val Lys Gin Gly Asp Asp 
805 810 815 

Tyr Val Tyr Leu pro Tyr Pro Asp Pro Ser Arg lie Leu Gly Ala Gly 
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820 825 830 

cys Phe Val Asp Asp lie val Lys Thr Asp Gly Thr Leu Met He Glu 
3 835 840 845 

Arg Phe Val ser Leu Ala lie Asp Ala Tyr Pro Leu Thr Lys His Pro 
y 850 855 860 

Asn Gin Glu Tyr Ala Asp Val Phe His Leu Tyr Leu Gin Tyr lie Arg 
865 870 875 880 

Lys Leu His Asp Glu Leu Thr Gly His Met Leu Asp Met Tyr ser val 
7 885 890 895 

Met Leu Thr Asn Asp Asn Thr ser Arg Tyr Trp Glu Pro Glu Phe Tyr 
900 905 910 

Glu Ala Met Tyr Thr Pro His Thr val Leu Gin Ala Val Gly Ala cys 
915 920 925 

val Leu cys Asn ser Gin Thr ser Leu Arg cys Gly Ala Cys lie Arg 
930 935 940 

Arg Pro Phe Leu Cys Cys Lys Cys cys Tyr Asp His val lie Ser Thr 
945 950 955 960 

Ser His Lys Leu val Leu Ser Val Asn Pro Tyr Val Cys Asn Ala Pro 
965 970 975 

Gly Cys Asp val Thr Asp val Thr Gin Leu Tyr Leu Gly Gly Met Ser 
980 985 990 

Tvr Tvr Cvs Lys ser His Lys Pro Pro lie Ser Phe Pro Leu cys Al 
995 1000 1005 

Asn Gly Gin val Phe Gly Leu Tyr Lys Asn Thr cys Val Gly ser 
1010 1015 1020 

Asp Asn val Thr Asp Phe Asn Ala lie Ala Thr cys Asp Trp Thr 
1025 1030 1035 

Asn Ala Gly Asp Tyr lie Leu Ala Asn Thr Cys Thr Glu Arg Leu 
1040 1045 1050 

Lys Leu Phe Ala Ala Glu Thr Leu Lys Ala Thr Glu Glu Thr Phe 
1055 1060 1065 

Lys Leu ser Tyr Gly lie Ala Thr val Arg Glu val Leu Ser Asp 
1070 1075 1080 

Arg Glu Leu His Leu ser Trp Glu val Gly Lys Pro Arg pro Pro 
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1085 1090 1095 

Leu Asn Arg Asn Tyr Val Phe Thr Gly Tyr Arg val Thr Lys Asn 
1100 1105 1110 

Ser Lys val Gin lie Gly Glu Tyr Thr Phe Glu Lys Gly Asp Tyr 
1115 1120 1125 

Gly Asp Ala val Val Tyr Arg Gly Thr Thr Thr Tyr Lys Leu Asn 
1130 1135 1140 

val Gly Asp Tyr Phe val Leu Thr Ser His Thr val Met Pro Leu 
1145 1150 1155 

Ser Ala Pro Thr Leu Val Pro Gin Glu His Tyr Val Arg lie Thr 
1160 1165 1170 

Gly Leu Tyr Pro Thr Leu Asn lie Ser Asp Glu Phe Ser Ser Asn 
1175 1180 1185 

val Ala Asn Tyr Gin Lys Val Gly Met Gin Lys Tyr Ser Thr Leu 
1190 1195 1200 

Gin Gly Pro Pro Gly Thr Gly Lys Ser His Phe Ala lie Gly Leu 
1205 1210 1215 

Ala Leu Tyr Tyr Pro ser Ala Arg lie Val Tyr Thr Ala Cys Ser 
1220 1225 1230 

His Ala Ala val Asp Ala Leu cys Glu Lys Ala Leu Lys Tyr Leu 
1235 1240 1245 

Pro lie Asp Lys cys Ser Arg lie lie Pro Ala Arg Ala Arg val 
1250 1255 1260 

Glu Cys Phe Asp Lys Phe Lys Val Asn Ser Thr Leu Glu Gin Tyr 
1265 1270 1275 

val Phe Cys Thr Val Asn Ala Leu Pro Glu Thr Thr Ala Asp lie 
1280 1285 1290 

Val val Phe Asp Glu lie ser Met Ala Thr Asn Tyr Asp Leu Ser 
1295 1300 1305 

val val Asn Ala Arg Leu Arg Ala Lys His Tyr Val Tyr lie Gly 
1310 1315 1320 

Asp Pro Ala Gin Leu Pro Ala Pro Arg Thr Leu Leu Thr Lys Gly 
1325 1330 1335 

Thr Leu Glu Pro Glu Tyr Phe Asn Ser val Cys Arg Leu Met Lys 
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1340 1345 1350 

Thr lie Gly pro Asp Met Phe Leu Gly Thr Cys Arg Arg cys Pro 
1355 1360 1365 

Ala Glu lie val Asp Thr val ser Ala Leu val Tyr Asp Asn Lys 
1370 1375 1380 

Leu Lys Ala His Lys Asp Lys Ser Ala Gin Cys Phe Lys Met Phe 
1385 1390 1395 

Tyr Lys Gly Val lie Thr His Asp Val Ser Ser Ala lie Asn Arg 
1400 1405 1410 

Pro Gin lie Gly val Val Arg Glu Phe Leu Thr Arg Asn Pro Ala 
1415 1420 1425 

Trp Arg Lys Ala val Phe lie Ser Pro Tyr Asn Ser Gin Asn Ala 
1430 1435 1440 

val Ala Ser Lys lie Leu Gly Leu Pro Thr Gin Thr Val Asp ser 
1445 1450 1455 

Ser Gin Gly ser Glu Tyr Asp Tyr val lie Phe Thr Gin Thr Thr 
1460 1465 1470 

Glu Thr Ala His Ser Cys Asn Val Asn Arg Phe Asn Val Ala lie 
1475 1480 " 1485 

Thr Arg Ala Lys lie Gly lie Leu cys lie Met Ser Asp Arg Asp 
1490 1495 1500 

Leu Tyr Asp Lys Leu Gin Phe Thr ser Leu Glu lie Pro Arg Arg 
1505 1510 1515 

Asn val Ala Thr Leu Gin Ala Glu Asn val Thr Gly Leu Phe Lys 
1520 1525 1530 

Asp Cys Ser Lys lie lie Thr Gly Leu His Pro Thr Gin Ala Pro 
1535 1540 1545 

Thr His Leu ser Val Asp lie Lys Phe Lys Thr Glu Gly Leu Cys 
1550 1555 1560 

val Asp lie Pro Gly lie Pro Lys Asp Met Thr Tyr Arg Arg Leu 
1565 1570 1575 

lie Ser Met Met Gly Phe Lys Met Asn Tyr Gin Val Asn Gly Tyr 
1580 1585 1590 

Pro Asn Met Phe lie Thr Arg Glu Glu Ala lie Arg His Val Arg 
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1595 1600 • 1605 

Ala Trp lie Gly Phe Asp val Glu Gly cys His Ala Thr Arg Asp 
1610 1615 1620 

Ala Val Gly Thr Asn Leu Pro Leu Gin Leu Gly Phe Ser Thr Gly 
1625 1630 1635 

val Asn Leu val Ala Val Pro Thr Gly Tyr Val Asp Thr Glu Asn 
1640 1645 1650 

Asn Thr Glu Phe Thr Arg Val Asn Ala Lys Pro Pro Pro Gly Asp 
1655 1660 1665 

Gin Phe Lys His Leu lie Pro Leu Met Tyr Lys Gly Leu Pro Trp 
1670 1675 1680 

Asn Val Val Arg lie Lys lie val Gin Met Leu ser Asp Thr Leu 
1685 ~ 1690 1695 

Lys Gly Leu Ser Asp Arg Val val Phe val Leu Trp Ala His Gly 
1700 1705 1710 

Phe Glu Leu Thr Ser Met Lys Tyr Phe Val Lys lie Gly pro Glu 
1715 1720 1725 

Arg Thr Cys cys Leu Cys Asp Lys Arg Ala Thr Cys Phe ser Thr 
1730 1735 1740 

Ser Ser Asp Thr Tyr Ala cys Trp Asn His Ser val Gly Phe Asp 
1745 1750 1755 

Tyr Val Tyr Asn Pro Phe Met lie Asp val Gin Gin Trp Gly Phe 
1760 1765 1770 

Thr Gly Asn Leu Gin Ser Asn His Asp Gin His cys Gin val His 
1775 1780 1785 

Gly Asn Ala His val Ala ser cys Asp Ala lie Met Thr Arg Cys 
1790 1795 1800 

Leu Ala Val His Glu Cys Phe val Lys Arg val Asp Trp Ser Val 
1805- 1810 1815 

Glu Tyr Pro lie lie Gly Asp Glu Leu Arg val Asn Ser Ala Cys 
1820 1825 1830 

Arg Lys Val Gin His Met Val val Lys Ser Ala Leu Leu Ala Asp 
1835 1840 1845 

Lys Phe Pro val Leu His Asp lie Gly Asn Pro Lys Ala lie Lys 
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1850 1855 I860 

cys Val Pro Gin Ala Glu Val Glu Trp Lys Phe Tyr Asp Ala Gin 
1865 1870 1875 

pro cys ser Asp Lys Ala Tyr Lys lie Glu Glu Leu Phe Tyr ser 
1880 1885 1890 

Tyr Ala Thr His His Asp Lys Phe Thr Asp Gly val Cys Leu Phe 
1895 1900 1905 

Trp Asn Cys Asn val Asp Arg Tyr Pro Ala Asn Ala He val Cys 
1910 1915 1920 

Arg Phe Asp Thr Arg Val Leu ser Asn Leu Asn Leu Pro Gly Cys 
1925 1930 1935 

Asp Gly Gly Ser Leu Tyr Val Asn Lys His Ala Phe His Thr Pro 
1940 1945 1950 

Ala Phe Asp Lys ser Ala Phe Thr Asn Leu Lys Gin Leu Pro Phe 
1955 I960 1965 

Phe Tvr Tyr ser Asp ser Pro cys Glu Ser His Gly Lys Gin Val 
1970 1975 1980 

val Ser Asp lie Asp Tyr val Pro Leu Lys Ser Ala Thr Cys lie 
1985 1990 1995 

Thr Arg cys Asn Leu Gly Gly Ala Val cys Arg His His Ala Asn 
2000 2005 2010 

Glu Tvr Arg Gin Tyr Leu Asp Ala Tyr Asn Met Met lie ser Ala 
2015 2020 2025 

Gly Phe ser Leu Trp lie Tyr Lys Gin Phe Asp Thr Tyr Asn Leu 
2030 2035 2040 

Trp Asn Thr Phe Thr Arg Leu Gin ser Leu Glu Asn val Ala Tyr 
V 2045 2050 2055 

Asn val val Asn Lys Gly His Phe Asp Gly His Ala Gly Glu Ala 
2060 2065 2070 

Pro val Ser lie He Asn Asn Ala val Tyr Thr Lys val Asp Gly 
2075 2080 2085 

lie Asp Val Glu He Phe Glu Asn Lys Thr Thr Leu Pro Val Asn 
2090 2095 2100 

val Ala Phe Glu Leu Trp Ala Lys Arg Asn He Lys Pro val pro 
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2105 2110 2115 

Glu lie Lys lie Leu Asn Asn Leu Gly val Asp lie Ala Ala Asn 
2120 2125 2130 

Thr Val He Trp Asp Tyr Lys Arg Glu Ala Pro Ala His val ser 
2135 2140 2145 

Thr lie Gly val Cys Thr Met Thr Asp lie Ala Lys Lys Pro Thr 
2150 2155 2160 

Glu ser Ala cys ser ser Leu Thr Val Leu Phe Asp Gly Arg Val 
2165 2170 2175 

Glu Gly Gin Val Asp Leu Phe Arg Asn Ala Arg Asn Gly Val Leu 
2180 2185 ~ 2190 

He Thr Glu Gly Ser Val Lys Gly Leu Thr Pro Ser Lys Gly Pro 
2195 2200 2205 

Ala Gin Ala Ser Val Asn Gly Val Thr Leu lie Gly Glu Ser Val 
2210 2215 2220 

Lys Thr Gin Phe Asn Tyr Phe Lys Lys val Asp Gly lie lie Gin 
2225 2230 2235 

Gin Leu Pro Glu Thr Tyr Phe Thr Gin Ser Arg Asp Leu Glu Asp 
2240 2245 2250 

Phe Lys Pro Arg ser Gin Met Glu Thr Asp Phe Leu Glu Leu Ala 
2255 2260 2265 

Met Asp Glu Phe lie Gin Arg Tyr Lys Leu Glu Gly Tyr Ala phe 
2270 2275 2280 

Glu His lie val Tyr Gly Asp Phe Ser His Gly Gin Leu Gly Gly 
2285 2290 2295 

Leu His Leu Met lie Gly Leu Ala Lys Arg ser Gin Asp ser Pro 
2300 2305 2310 

Leu Lys Leu Glu Asp Phe lie Pro Met Asp ser Thr val Lys Asn 
2315 2320 2325 

Tyr Phe lie Thr Asp Ala Gin Thr Gly ser ser Lys cys Val cys 
2330 2335 2340 

Ser Val lie Asp Leu Leu Leu Asp Asp Phe val Glu He lie Lys 
2345 2350 2355 

Ser Gin Asp Leu Ser val lie Ser Lys val val Lys val Thr lie 
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2360 2365 2370 

Asp Tyr Ala Glu He Ser Phe Met Leu Trp Cys Lys Asp Gly His 
"75 2380 2385 

Val flon Thr Phe Tyr Pro b ys Leu Gin Ala ser Gin Ala Trp Gin 

2395 2400 

Pr ° ?lk Val Ala Met Pro A f n „ Leu J y r L V S Met Gin Arg Met Leu 

2410 2415 

L6U ?Aon LyS Cys Asp Leu Asn Gl V Glu Asn Ala val He 

z **° 2425 2430 

Pro Lys Gly He Met Met Asn val Ala Lys Tyr Thr Gin Leu cys 
Z4;, -> 2440 2445 

Gl " T^n L6U ASn Thr Leu VlZc Leu Ala Va1 Pro T Vr Asn Met Arg 
^4b0 2455 2460 

Val ?It<; HiS Phe Gly Ala $\X n Ser AS P G1 V va1 Ala Pro Gly 
^ 4 &5 2470 2475 

Thr A ]fn Val Leu Arg Gln I rp Leu Pro Thr G ly Thr Leu Leu val 
* 45U 2485 2490 

Asp ffEc Asp Leu Asn Asp Pne Val Ser Asp Ala Asp ser Thr Leu 
^ 4y -> 2500 2505 

11 6 ?l y n ASp Cys Ala Thr Va L His Thr Ala Asn Lys Trp Asp Leu 
"-H* 2515 2520 

11 e *] e _ s er Asp Met Tyr Asp Pro Arg Thr Lys His val Thr Lys 

2530 2535 

Glu A f"n Asp Ser Lys Glu Gl y Phe Pne Thr Tyr Leu Cys Gly phe 
/b40 2545 2550 

Ile Lys Gin Lys Leu Ala Leu Gly Gly Ser He Ala Val Lys lie 
" 55 2560 2565 

Thr Glu His Ser Trp Asn Ala Asp Leu Tyr Lys Leu Met Gly His 
zwo 2575 2580 

Phe ser Trp Trp Thr Ala Phe val Thr Asn Val Asn Ala Ser ser 

2590 2595 

2600 AU ^ 11 6 26^5 AU ASD LeU 2610 ^ LyS 

Glu Gin He Asp Gly Tyr Thr Met His Ala Asn Tyr He Phe Trp 
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2615 2620 2625 

Arg Asn Thr Asn Pro He Gin Leu Ser Ser Tyr ser Leu Phe Asp 
2630 2635 2640 

Met ser Lys Phe Pro Leu Lys Leu Arg Gly Thr Ala Val Met Ser 
2645 2650 2655 

Leu Lys Glu Asn Gin lie Asn Asp Met lie Tyr Ser Leu Leu Glu 
2660 2665 2670 

Lys Gly Arg Leu lie lie Arg Glu Asn Asn Arg val val Val Ser 
2675 2680 2685 

ser Asp lie Leu val Asn Asn 
2690 2695 
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